La gestión medioambiental se ve significativamente influenciada por la calidad del agua, y resulta fundamental llevar a cabo la medición efectiva de múltiples factores físicos, químicos y biológicos para garantizar un control adecuado. En este conjunto de datos se recopilan mediciones de seis parámetros esenciales para evaluar la calidad del agua, utilizados comúnmente en la supervisión y análisis ambiental. Este conjunto de datos ofrece una visión representativa de la calidad del agua en un momento específico.
Los seis parámetros medidos en este conjunto de datos son:
pH: El pH evalúa la acidez o basicidad de un líquido en una escala de 0 a 14, donde valores menores a 7 denotan acidez, valores mayores a 7 indican basicidad y un pH de 7 representa neutralidad.
Dissolved Oxygen (DO): El OD evalúa la cantidad de oxígeno disuelto en el agua, siendo vital para la vida acuática. Niveles elevados son esenciales para la supervivencia de peces y otros organismos marinos.
Temperature: La temperatura impacta procesos físicos, químicos y biológicos en masas de agua, siendo un factor crucial que influye en el ritmo de diversos procesos acuáticos.
Biochemical Oxygen Demand (BOD): La DBO cuantifica el oxígeno necesario para que los microorganismos descompongan la materia orgánica acuática. Niveles altos pueden señalar contaminación con materia orgánica, haciendo que el agua no sea segura para el consumo o actividades recreativas.
Total Suspended Solids (TSS): Los SST evalúan la concentración de sólidos suspendidos en el agua, abarcando materia orgánica, sedimentos y otros contaminantes. Niveles altos de SST pueden señalar una baja calidad del agua, afectando la vida acuática y otros usos del recurso hídrico.
Nitrate-Nitrogen (NO3-N): El NO3-N cuantifica la presencia de nitrato en el agua, un nutriente necesario para el crecimiento de las plantas. Sin embargo, altas concentraciones de nitrato en el agua potable pueden tener efectos perjudiciales para la salud humana.
Mediana: \(7,16\)
Media: \(7,16114\)
Moda: \(7,01\)
Mediana: \(8,4\)
Media: \(8,3822\)
Moda: \(7,8\)
Rango: \(0,65\)
Varianza: \(0,0115\)
Desviación Estándar: \(0,1075\)
Rango: \(3,9\)
Varianza: \(0,6763\)
Desviación Estándar: \(0,8223\)
Resumen de los cinco números
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.830 7.080 7.160 7.161 7.250 7.480
Resumen de los cinco números
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.000 7.800 8.400 8.382 9.100 9.900
Ahora, vamos a identificar cómo se relacionan entre sí las variables.
Para este caso, se ha decidido analizar cómo varía el pH en función de otros factores. Por tal razón, se calcula la matriz de correlación en orden de determinar el factor que mayor influencia ejerce sobre este.
## pH Temperature Turbidity Dissolved_Oxygen Conductivity
## pH 1.000 0.152 -0.093 0.705 0.664
## Temperature 0.152 1.000 -0.233 0.247 0.318
## Turbidity -0.093 -0.233 1.000 -0.275 -0.087
## Dissolved_Oxygen 0.705 0.247 -0.275 1.000 0.761
## Conductivity 0.664 0.318 -0.087 0.761 1.000
Definido los parámetros para el Modelo de Regresión se van ha utilizar las siguientes variables:
Para este caso el pH es la variable dependiente del modelo, ya que está es la que predice y explica los factores físicos, químicos y biológicos para garantizar un control adecuado en el tratamiento del agua.
Y la Variable independiente es Dissolved Oxygen es uno de los factores que explica la variabilidad en la variable dependiente.
El diagrama de dispersión, podemos observar, la variable en el eje “y” es el pH y la variable en el eje “x” es Oxígeno Disuelto. Con esto podemos Se pueden interpretar el de correlación a través de los patrones mostrados en el diagramas de dispersión. Para este caso es Positivo, debido a que el pH y el oxígeno disuelto evolucionan en la misma dirreción, es decir, que mientras el pH aumenta, el oxígeno disuelto, que es lo que influencia la calidad del agua.
##
## Call:
## lm(formula = pH ~ Dissolved_Oxygen, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.22889 -0.05057 0.00222 0.04878 0.36710
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.388191 0.034986 182.6 <2e-16 ***
## Dissolved_Oxygen 0.092213 0.004154 22.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07631 on 498 degrees of freedom
## Multiple R-squared: 0.4974, Adjusted R-squared: 0.4964
## F-statistic: 492.8 on 1 and 498 DF, p-value: < 2.2e-16
\[\begin{align*} y= 6,38 + 0,092x \end{align*}\]
\[\begin{align*} 0 \leq R^2 \leq1 \end{align*}\]
\[\begin{align*} 0 \leq 0,4964 \leq1 \end{align*}\]
El cálculo de predicciones en un modelo de regresión implica utilizar el modelo ajustado para estimar el valor de la variable dependiente (pH) para un conjunto dado de valores de las variables independientes (Dissolved Oxygen).
## 1
## 7.07979
## 1
## 7.356429
Un modelo de regresión lineal simple o múltiple hace ciertos supuestos para que los resultados de las estimaciones y las inferencias sean válidos. Es importante tener en cuenta estos supuestos al interpretar los resultados del modelo.
El diagnóstico de un modelo de regresión lineal es un paso crucial para evaluar su rendimiento y determinar si cumple con los supuestos subyacentes del modelo. Aquí hay algunos aspectos importantes a considerar al diagnosticar un modelo de regresión lineal:
La relación entre la variable de predicción (independiente) y de criterio (dependiente) debe ser lineal en el rango de valores observados de la variable de predicción.
## [1] 1.470178e-19
Una forma de comprobar la linealidad es ver si la media de los residuos del modelo es igual, o cercana, a 0. En este caso, se cumple, con una media de prácticamente 0.
\[\begin{align*} 1,470178e^-19 \end{align*}\]
Esto significa que los residuos deben distribuirse de forma homogénea para todos los valores de la variable de predicción.
##
## studentized Breusch-Pagan test
##
## data: regresion
## BP = 1.2244, df = 1, p-value = 0.2685
Tenemos dos gráficos para ver esto: (gráfico 1) la distribución de los residuos VS valores ajustados. Lo que se busca es que estos presenten un patrón aleatorio alrededor de 0. Un patrón aleatorio sugiere que el modelo de regresión es apropiado y que los supuestos del modelo se cumplen. Por otro lado, el (gráfico 2), donde los residuos están estandarizados en términos de su error estándar.
Los residuos deben distribuirse de forma normal.
##
## Call:
## lm(formula = pH ~ Dissolved_Oxygen, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.22889 -0.05057 0.00222 0.04878 0.36710
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.388191 0.034986 182.6 <2e-16 ***
## Dissolved_Oxygen 0.092213 0.004154 22.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07631 on 498 degrees of freedom
## Multiple R-squared: 0.4974, Adjusted R-squared: 0.4964
## F-statistic: 492.8 on 1 and 498 DF, p-value: < 2.2e-16
## 2.5 % 97.5 %
## (Intercept) 6.31945326 6.4569294
## Dissolved_Oxygen 0.08405173 0.1003745
##
## Call:
## lm(formula = pH ~ Dissolved_Oxygen, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.22889 -0.05057 0.00222 0.04878 0.36710
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.388191 0.034986 182.6 <2e-16 ***
## Dissolved_Oxygen 0.092213 0.004154 22.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07631 on 498 degrees of freedom
## Multiple R-squared: 0.4974, Adjusted R-squared: 0.4964
## F-statistic: 492.8 on 1 and 498 DF, p-value: < 2.2e-16
la normalidad de los residuos facilita la interpretación y la inferencia estadística.
El test de Durbin-Watson es una prueba estadística que se utiliza para analizar la presencia de autocorrelación de primer orden en los residuos de un modelo de regresión.
Es necesario comprobar que los residuos sean independientes entre sí y que no haya ningún tipo de correlación entre ellos.
## lag Autocorrelation D-W Statistic p-value
## 1 -0.3989475 2.790684 0
## Alternative hypothesis: rho != 0
La prueba proporciona información sobre la independencia de los residuos. El estadístico de Durbin-Watson toma valores entre 0 y 4. Un valor de 2 sugiere que no hay autocorrelación. Los valores más cercanos a 0 indican autocorrelación positiva, mientras que los valores más cercanos a 4 indican autocorrelación negativa.
El valor del estadístico de D-W es de 2,79, estaría en la región donde se sugiere autocorrelación negativa.
[1] Con respecto a las variables del modelo, se puede concluir lo siguiente.
pH:
Los valores de pH están sesgados (levemente) a la derecha, ya que la mediana de 7.160 está más mínimamente cerca del Q1 de 7.080 que del Q3 de 7.250. Es decir, se presenta asimetría positiva.
El 50% intermedio de los valores de pH están entre 7.080 y 7.250 (IQR).
No hay presencia de valores atípicos, todos los valores están dentro del rango esperado.
Oxígeno disuelto:
Los valores de oxígeno disuelto están sesgados (levemente) a la derecha, ya que la mediana de 8.400 está más mínimamente cerca del Q1 de 7.800 que del Q3 de 9.100. Es decir, se presenta asimetría positiva.
El 50% intermedio de los valores de oxígeno disuelto están entre 7.800 y 9.100 (IQR).
No hay presencia de valores atípicos, todos los valores están dentro del rango esperado.
[2] Para este caso, el \(R^2\) es de 0,4964, lo que significa que la correlación es mínima, es decir, casi no hay una relación lineal entre las variables. Asimismo, indica una explicación moderada de la variabilidad de la variable dependiente y puede considerarse como un indicador de la adecuación del modelo en términos de explicar las variaciones observadas.
[3] Con respecto a los supuesto del modelo, podemos comentar lo siguiente:
[1] Buitrago, L. (2020). Regresión lineal. RPubs. https://rpubs.com/labuitragor/584717
[2] Berrendero, J. (2016). Regresión lineal simple con R. RPubs. https://rpubs.com/joser/RegresionSimple
[3] Verma, S. (2023, May 16). Water quality testing. Kaggle. https://www.kaggle.com/datasets/shreyanshverma27/water-quality-testing
[4] Sulmont, D. (2019). Supuestos del Modelo de regresión lineal y diagnóstico. RPubs. https://rstudio-pubs-static.s3.amazonaws.com/740953_5b6d2acfe47b43b99a7d898d13ff9aec.html
[5] Hut, I. (2017). Correlation tests, correlation matrix, and corresponding visualization … RPubs. https://rstudio-pubs-static.s3.amazonaws.com/240657_5157ff98e8204c358b2118fa69162e18.html