Comparativa entre regresión lineal simple y regresión logística
Caso de estudio: relación entre el ph y la temperatura de agua de pozos
- Importar datos
setwd("~/Estadistica aplicada 10-11am")
library(pacman)
p_load("readxl", "prettydoc", "DT")
library(readxl)
pozos <- read_excel("pozos.xlsx", col_types = c("numeric",
"numeric", "numeric"))
View(pozos)- Visualizar datos en una tabla interactiva
Análisis de correlación
Matriz de coeficientes de correlación
## TEMP PHB PH
## TEMP 1.00000000 0.07826025 -0.02029087
## PHB 0.07826025 1.00000000 0.31999640
## PH -0.02029087 0.31999640 1.00000000
Ecuación de recta de minimos cuadrados
##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
\[ y = 7.017231 + -0.004418\] ### Gráfica de la recta de minimos cuadrados
Regresión logística
- se va a calcular la frecuencia con la cual se presentan los valores de 0 y de 1
##
## 0 1
## 263 30
- Una representación gráfica de los datos ALCALINOS/NEUTROS(0) Y ÄCIDOS(1)
colores <- NULL
colores[pozos$PHB==0] <- "red"
colores[pozos$PHB==1] <- "blue"
plot(pozos$TEMP, pozos$PHB, pch=21, bg=colores, xlab="temperatura", ylab="pH")datas <- data.frame(TEMP = seq(20,35))
probabilidades <- predict(regresion, datas, type="response")
#grafica
plot(pozos$TEMP, pozos$PHB, pch=21, bg=colores, xlab="temperatura", ylab="pH")
lines(datas$TEMP, probabilidades,col="blue",lwd=4)