U1A14

Erika Delgado

12/10/2020

Comparativa entre regresión linea simple y regresión logística

Caso de estudio: relación entre el pH y la temperatura de agua de posos

setwd("~/EstadisticaAplicada")
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric", 
    "numeric", "numeric"))
  • visualizar datos en una tabla interactiva
datatable(pozos)

Análisis de correlación

Matriz de diagramas de dispersión

pairs(pozos)

Matriz de coeficientes de correlación

cor(pozos)
##             TEMP        PHB          PH
## TEMP  1.00000000 0.07826025 -0.02029087
## PHB   0.07826025 1.00000000  0.31999640
## PH   -0.02029087 0.31999640  1.00000000

Ecuación de Recta de mínimos cuadrados

regresion <- lm(PH ~ TEMP, data=pozos)
summary(regresion)
## 
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.78955 -0.09220  0.01089  0.11089  0.59587 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.017231   0.366448  19.149   <2e-16 ***
## TEMP        -0.004418   0.012761  -0.346    0.729    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared:  0.0004117,  Adjusted R-squared:  -0.003023 
## F-statistic: 0.1199 on 1 and 291 DF,  p-value: 0.7294

\[ y = 7.017231 -0.004418x\]

Gráfica de la Recta de mínimos cuadrados

plot(pozos$TEMP, pozos$PH, xlab="Temperatura del pozo", ylab="pH")
abline(regresion)

Regresión logística

  • Se va a calcular la frecuencia con la cual se presentan los valores de 0 y de 1
table(pozos$PHB)
## 
##   0   1 
## 263  30
  • Una representación gráfica de los datos ALCALINOS/NEUTROS (0) Y ÁCIDOS (1)
colores <- NULL
colores[pozos$PHB==0] <- "red"
colores[pozos$PHB==1] <- "blue"
plot(pozos$TEMP, pozos$PHB, pch=21,bg=colores, xlab="Temperatura", ylab="pH" )

  • Asignación:

Terminar este análisis ajustando la curva de regresión logística

summary(pozos)
##       TEMP           PHB               PH      
##  Min.   :25.6   Min.   :0.0000   Min.   :6.10  
##  1st Qu.:28.0   1st Qu.:0.0000   1st Qu.:6.80  
##  Median :28.7   Median :0.0000   Median :6.90  
##  Mean   :28.7   Mean   :0.1024   Mean   :6.89  
##  3rd Qu.:29.2   3rd Qu.:0.0000   3rd Qu.:7.00  
##  Max.   :32.1   Max.   :1.0000   Max.   :7.50
datos <- data.frame(TEMP=seq(25.6,32.1,0.1))
probabilidades <- predict(regresion, datos, type = "response")
colores [pozos$PH<7] <- "red"
colores [pozos$PH>=7] <- "blue"
plot(pozos$TEMP, pozos$PH, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de pH')
legend('bottomleft', c('ALCALINOS/NEUTROS', 'ÁCIDOS'), pch = 21, col = c('red', 'blue'))

lines(datos$TEMP, probabilidades, col= "green" , lwd = 3)

Contestar la pregunta según estos datos: ¿Que tan relacionado está la temperatura con el pH del agua de estos pozos? La relación es que entre el agua mientras más fría se emcuentre mas alcalino es y mientras mas caliente mas ácida aunque tambien influyen la sal que esta contenga