Comparativa entre regresión líneal simple y regresión logísitca
- Caso estudio : Variación de PH en función de la temperatura en agua (en un pozo)
El pH del agua se afecta directamente con la temperatura, éste es un resultado ligero pero medible. Por ejemplo, el agua pura tiene un pH de 7 únicamente a una temperatura de 25 grados Celsius. Cuando hay un incremento en la temperatura, el pH disminuye, de igual forma una disminución de temperatura implica un aumento en el pH.
La causa de que se afecte el pH del agua por la temperatura es que cuando aumenta la temperatura, las moléculas tienden a separarse en sus elementos: hidrógeno y oxígeno. Al aumentar la proporción de moléculas descompuestas se produce más hidrógeno, lo cual por supuesto aumenta a su vez el potencial de hidrógeno pH.
setwd ("~/estadisticaap")
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos2.xlsx", col_types = c("numeric",
"numeric", "numeric"))Visualizando datos en tabla interactiva
Matriz de coeficientes de correlación
## TEMP PHB PH
## TEMP 1.00000000 0.07826025 -0.02029087
## PHB 0.07826025 1.00000000 0.31999640
## PH -0.02029087 0.31999640 1.00000000
Recta de mínimos cuadrados
##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
La ecuación de la recta quedaría:
\[ y = 7.017231 -0.004418x\]
Regresión logística
- Se calculará la frecuencia con la cual se presentan los valores de 0 y 1
##
## 0 1
## 263 30
- Una representación gráfica de los datos ALCALINOS-NEUTROS (0) Y ÁCIDOS (1)
#alcalinos
colores <- NULL
colores[pozos$PHB==0] <- "red"
#acidos
colores[pozos$PHB==1] <- "blue"
plot(pozos$TEMP, pozos$PHB, pch=21, bg=colores, xlab="Temperatura", ylab="PH")Asignación # Terminar análisis ajustando con la curva de regresión logisitca
##
## Call:
## glm(formula = PHB ~ TEMP, family = binomial, data = pozos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.6781 -0.4814 -0.4540 -0.4130 2.3384
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -9.3105 5.3634 -1.736 0.0826 .
## TEMP 0.2479 0.1854 1.337 0.1813
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 193.56 on 292 degrees of freedom
## Residual deviance: 191.79 on 291 degrees of freedom
## AIC: 195.79
##
## Number of Fisher Scoring iterations: 5
datos <- data.frame(TEMP= seq(0,550,0.1))
probabilidades <- predict(regr, datos, type = "response")
#gráfica
plot(pozos$TEMP,pozos$PHB, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'probailidad de PH alcalino o ácido')
legend('bottomleft', c('ácido', 'alcalino'), pch = 21, col = c('blue', 'red'))
lines(datos$TEMP, probabilidades, col="purple", lwd=3)Pregunta: Apartir de de datos de reg. lineal y logisitca y literatura: ¿Qué tan relacionado esta la temperatura con el PH?
*Se observa que cuando sube la temperatura aumenta la probabilidad de que sea ácido , aunque no de manera muy notoria