Comparativa entre regresión lineal simple y regresión logística
Caso de estudio: relación entre el pH y la temperatura de agua de pozos
El pH del agua se afecta directamente con la temperatura, éste es un resultado ligero pero medible. Por ejemplo, el agua pura tiene un pH de 7 únicamente a una temperatura de 25 grados Celsius. Cuando hay un incremento en la temperatura, el pH disminuye, de igual forma una disminución de temperatura implica un aumento en el pH.
La causa de que se afecte el pH del agua por la temperatura es que cuando aumenta la temperatura, las moléculas tienden a separarse en sus elementos: hidrógeno y oxígeno. Al aumentar la proporción de moléculas descompuestas se produce más hidrógeno, lo cual por supuesto aumenta a su vez el potencial de hidrógeno pH.
- Importar datos
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric",
"numeric", "numeric"))- visualizar datos en una tabla interactiva
Análisis de correlación
Matriz de coeficientes de correlación
## TEMP PHB PH
## TEMP 1.00000000 0.07826025 -0.02029087
## PHB 0.07826025 1.00000000 0.31999640
## PH -0.02029087 0.31999640 1.00000000
Ecuación de Recta de mínimos cuadrados
##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
\[ y = 7.017231 -0.004418x\]
Regresión logística
- Se va a calcular la frecuencia con la cual se presentan los valores de 0 y de 1
##
## 0 1
## 263 30
- Una representación gráfica de los datos ALCALINOS/NEUTROS (0) Y ÁCIDOS (1)
colores <- NULL
colores[pozos$PHB==0] <- "red"
colores[pozos$PHB==1] <- "blue"
plot(pozos$TEMP, pozos$PHB, pch=21,bg=colores, xlab="Temperatura", ylab="pH" )## TEMP PHB PH
## Min. :25.6 Min. :0.0000 Min. :6.10
## 1st Qu.:28.0 1st Qu.:0.0000 1st Qu.:6.80
## Median :28.7 Median :0.0000 Median :6.90
## Mean :28.7 Mean :0.1024 Mean :6.89
## 3rd Qu.:29.2 3rd Qu.:0.0000 3rd Qu.:7.00
## Max. :32.1 Max. :1.0000 Max. :7.50
datos <- data.frame(TEMP=seq(25.6,32.1,0.1))
probabilidades <- predict(regresion, datos, type = "response")
colores [pozos$PH<7] <- "red"
colores [pozos$PH>=7] <- "blue"
plot(pozos$TEMP, pozos$PH, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de pH')
legend('bottomleft', c('ALCALINOS/NEUTROS', 'ÁCIDOS'), pch = 21, col = c('red', 'blue'))
lines(datos$TEMP, probabilidades, col= "green" , lwd = 3)- Asignación:
Terminar este análisis ajustando la curva de regresión logística Contestar la pregunta según estos datos: ¿Que tan relacionado está la temperatura con el pH del agua de estos pozos? Se puede observar y llegar a la conclusion que la relacion es que mientras más fría se encuentre el agua mas alcalino es y mientras mas caliente mas ácida, tambien influyen la sal que esta contenga.