Informe

Introducción

En las últimas décadas, la contaminación de fuentes hídricas con hidrocarburos se ha convertido en un problema ambiental de gran envergadura y preocupación a nivel mundial. Los derrames de petróleo, los vertidos de combustibles y los productos químicos industriales son algunas de las principales causas de esta contaminación, que puede tener consecuencias devastadoras para la vida acuática y la salud humana. Ante esta situación, se ha vuelto imperante encontrar soluciones efectivas y sostenibles para la descontaminación de las fuentes hídricas contaminadas con hidrocarburos. En este contexto, ha surgido un área de investigación prometedora que involucra el uso de hongos como agentes biológicos para la limpieza de estos cuerpos de agua.

Resumen

En este estudio, se evalúa la viabilidad financiera de la utilización de hongos para la purificación de fuentes hídricas contaminadas por hidrocarburos. El objetivo principal es determinar los costos asociados con la implementación de esta tecnología y los beneficios económicos derivados de la recuperación y reutilización del agua tratada. Para ello, se emplea un enfoque de análisis de costo-beneficio. El método utilizado consiste en aplicar encuestas a una muestra representativa de la población, con el fin de obtener información sobre la disposición de las personas a utilizar esta tecnología y su percepción de los costos asociados. Se consideran variables socioeconómicas como la edad, el género y la situación socioeconómica para analizar posibles barreras y determinar la aceptación de la tecnología. Los resultados obtenidos permitirán determinar la viabilidad financiera de la utilización de hongos para la purificación de fuentes hídricas contaminadas por hidrocarburos. Además, se identificarán las principales barreras socioeconómicas que podrían afectar la adopción de esta tecnología. Estos hallazgos serán de relevancia para la toma de decisiones en la gestión de recursos hídricos y contribuirán al avance del conocimiento en el campo de la biorremediación.

Justificación

La justificación de esta investigación radica en la necesidad de abordar el problema de la contaminación de fuentes hídricas con hidrocarburos y buscar alternativas efectivas y sostenibles para su descontaminación. La utilización de hongos como agentes biológicos para la purificación de estas fuentes hídricas ha surgido como una técnica prometedora, pero es fundamental evaluar su viabilidad desde el punto de vista financiero y comprender la aceptación potencial por parte de la población.

Metodología

La metodología de investigación que se aplica en este informe es la investigación de tipo descriptiva. La investigación descriptiva busca analizar las características, comportamientos o actitudes de una población o muestra específica. La encuesta en una investigación cualitativa es una herramienta utilizada para recopilar datos e información de una muestra de participantes, con el fin de comprender las perspectivas, opiniones, experiencias y comportamientos de las personas involucradas en el estudio. A diferencia de la investigación cuantitativa, que se centra en la recopilación y análisis de datos numéricos, la investigación cualitativa se enfoca en la comprensión profunda y detallada de fenómenos sociales y humanos.

Presentación de encuesta.

La encuesta se realizo por medio de “Google Forms” a una población mayormente estudiantes y docentes de la Universidad Santo Tomás seccional Bucaramanga. A continución el link de la encuesta realizada. https://forms.gle/CcDAUjmBvZhahuAc7

Preguntas Socio-demográficas:

Preguntas Covariables (Variables independientes):

Son aquellas que influyen o afectan de algún modo la respuesta de la pregunta problema y permiten clasificar fácilmente la muestra poblacional.

Pregunta problema (Variable Dependiente):

La pregunta que responde a los objetivos presentados en este proyecto. Esta permite promonet soluciones al problema planteado.

Modelo

A continuación se dará un paso a paso para verificar el modelo con los temas aprendidos en clase.

El primer paso, es insertar la base de datos desde excel y se le asigna un nombre en este caso “Hongos”.

library(readxl)
Hongos <- read_excel("Formulario sin título (Respuestas).xlsx")

Renombramos las variables independientes y la variable dependiente.

DP<-Hongos$`¿Qué porcentaje adicional estaría dispuesto a pagar para que el acueducto use este método de purificación? (Ejemplo, si paga $50 en su factura mensual y esta dispuesto a pagar $100  su porcentaje de disposición adicional en del 100%)`
IMI<-Hongos$`En una escala de 0 a 10 que tan de acuerdo está en la implementación de métodos innovadores más amigables con el ambiente PERO a un mayor costo.`
E<-Hongos$Estrato
CFM<-Hongos$`En promedio, ¿Cuál es el costo de su factura mensual de agua?`
NE<- Hongos$`Nivel de estudio máximo alcanzado`
ES<- Hongos$`En una escala de 0 a 10, ¿cómo consideraría su estado actual de salud?`
ED<- Hongos$Edad
NF<- Hongos$`Su núcleo familiar está compuesto por niños menores de 10 años o por adultos mayores de 60 años?`
G<- Hongos$Género

Estadistica descriptiva

y <- as.numeric(Hongos$`¿Qué porcentaje adicional estaría dispuesto a pagar para que el acueducto use este método de purificación? (Ejemplo, si paga $50 en su factura mensual y esta dispuesto a pagar $100  su porcentaje de disposición adicional en del 100%)`)
min(y)          #B) Mínimo
## [1] 0
max(y)          #C) Máximo
## [1] 200
range(y)        #D) Obtenemos (min, max)
## [1]   0 200
length(y)       #E) Tamaño
## [1] 40
sum(y)          #F) Suma los valores de los datos
## [1] 992
mean(y)         #G) Media aritmética
## [1] 24.8
median(y)       #H) Mediana
## [1] 15
var(y)          #I) Varianza muestral
## [1] 1235.6
sqrt(var(y))    #J) Desviación estándar muestral (una forma)
## [1] 35.1511
sd(y)           #K) Desviación estándar muestral (otra forma)
## [1] 35.1511
plot(y)

x1 <- as.numeric(Hongos$`En una escala de 0 a 10 que tan de acuerdo está en la implementación de métodos innovadores más amigables con el ambiente PERO a un mayor costo.`)
min(x1)          #B) Mínimo
## [1] 0
max(x1)          #C) Máximo
## [1] 10
range(x1)        #D) Obtenemos (min, max)
## [1]  0 10
length(x1)       #E) Tamaño
## [1] 40
sum(x1)          #F) Suma los valores de los datos
## [1] 300
mean(x1)         #G) Media aritmética
## [1] 7.5
median(x1)       #H) Mediana
## [1] 8
var(x1)          #I) Varianza muestral
## [1] 7.589744
sqrt(var(x1))    #J) Desviación estándar muestral (una forma)
## [1] 2.754949
sd(x1)           #K) Desviación estándar muestral (otra forma)
## [1] 2.754949
plot(x1)

x2 <- as.numeric(Hongos$`En promedio, ¿Cuál es el costo de su factura mensual de agua?`)
max(x2)          #C) Máximo
## [1] 2e+05
range(x2)        #D) Obtenemos (min, max)
## [1]  11000 200000
length(x2)       #E) Tamaño
## [1] 40
sum(x2)          #F) Suma los valores de los datos
## [1] 3710000
mean(x2)         #G) Media aritmética
## [1] 92750
median(x2)       #H) Mediana
## [1] 79500
var(x2)          #I) Varianza muestral
## [1] 2495115385
sqrt(var(x2))    #J) Desviación estándar muestral (una forma)
## [1] 49951.13
sd(x2)           #K) Desviación estándar muestral (otra forma)
## [1] 49951.13
plot(x2)

x3 <- as.numeric(Hongos$`En una escala de 0 a 10, ¿cómo consideraría su estado actual de salud?`)
max(x3)          #C) Máximo
## [1] 10
range(x3)        #D) Obtenemos (min, max)
## [1]  4 10
length(x3)       #E) Tamaño
## [1] 40
sum(x3)          #F) Suma los valores de los datos
## [1] 341
mean(x3)         #G) Media aritmética
## [1] 8.525
median(x3)       #H) Mediana
## [1] 9
var(x3)          #I) Varianza muestral
## [1] 1.589103
sqrt(var(x3))    #J) Desviación estándar muestral (una forma)
## [1] 1.260596
sd(x3)           #K) Desviación estándar muestral (otra forma)
## [1] 1.260596
plot(x3)

Se realiza el modelo de regresión lineal con los códigos correspondiestes. Se observan los números residuales para empezar con la detección de algun problema

model1 <- lm(DP ~  IMI + NF + CFM, data = Hongos)
summary(model1)
## 
## Call:
## lm(formula = DP ~ IMI + NF + CFM, data = Hongos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -39.605 -19.267  -4.887   7.566 149.126 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -2.370e+01  2.080e+01  -1.139   0.2620  
## IMI          5.102e+00  1.965e+00   2.597   0.0135 *
## NFSi         2.101e+01  1.084e+01   1.938   0.0605 .
## CFM          2.538e-05  1.090e-04   0.233   0.8171  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 32.52 on 36 degrees of freedom
## Multiple R-squared:  0.2101, Adjusted R-squared:  0.1443 
## F-statistic: 3.192 on 3 and 36 DF,  p-value: 0.03502
model1$residuals
##           1           2           3           4           5           6 
##  24.7354177   2.6039320 -30.3668616  26.0043328 -13.7911086 -23.8441634 
##           7           8           9          10          11          12 
##  -4.5524577   0.9020535  -5.2115275 -26.6312019  -9.2248380   6.2581159 
##          13          14          15          16          17          18 
## -20.3668616   0.5990461  -3.9710549 -19.3925510   0.8081795  -5.1243803 
##          19          20          21          22          23          24 
##  -8.1320388   5.9058839 -13.9956672 -19.2248380 -39.6047681  16.9976036 
##          25          26          27          28          29          30 
## -14.1464264 -10.6206446  47.8574016   2.0232953  22.4096196  18.6256670 
##          31          32          33          34          35          36 
## -25.8698528 149.1263168 -12.7270631  -4.6501621  11.4880311  21.2619462 
##          37          38          39          40 
##  37.0971320 -28.0308390 -23.8434190 -31.3812493

Pruebas

Datos atípicos

distancia_cook= cooks.distance(model1)
plot(distancia_cook, pch = 20, main = "Gráfico de Distancia de Cook")
abline(h = 4/length(distancia_cook), col = "blue", lty = 2)

##Análisis de datos atípicos
cooks.distance(model1)
##            1            2            3            4            5            6 
## 1.021138e-02 2.026206e-04 1.992936e-02 8.141224e-03 2.297328e-03 9.097426e-03 
##            7            8            9           10           11           12 
## 2.327591e-04 1.237943e-05 4.856767e-04 1.977598e-02 1.282710e-03 5.117848e-04 
##           13           14           15           16           17           18 
## 8.964825e-03 3.722486e-06 2.447757e-04 1.553585e-02 6.009381e-05 1.017265e-03 
##           19           20           21           22           23           24 
## 1.123317e-03 6.428180e-04 2.358226e-03 5.571041e-03 5.550312e-02 1.613433e-02 
##           25           26           27           28           29           30 
## 6.579246e-03 2.844384e-03 9.916625e-02 1.505685e-04 8.780814e-03 5.785654e-02 
##           31           32           33           34           35           36 
## 1.519963e-02 6.378840e-01 5.539773e-03 9.737249e-04 6.515338e-03 1.244857e-02 
##           37           38           39           40 
## 2.873395e-02 5.654430e-02 2.907721e-02 3.125042e-02
# Identificar observaciones atípicas
observaciones_atipicas <- which(distancia_cook > 4/length(distancia_cook))

No se detectan datos atípicos en el modelo según los supuestos no hay observaciones con grandes residuos.

Heteroscedasticidad (Prueba de Breusch-Pagan) Paquete lmtest

library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
# Realizar la prueba de Breusch-Pagan
resultado_bp= bptest(model1)
# Imprimir los resultados
print(resultado_bp)
## 
##  studentized Breusch-Pagan test
## 
## data:  model1
## BP = 4.6898, df = 3, p-value = 0.196

Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.196, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que existe homocedasticidad.

Autocorrelación (Durbin Watson)

dw_test = dwtest(model1)
# Imprimir los resultados
print(dw_test)
## 
##  Durbin-Watson test
## 
## data:  model1
## DW = 2.2253, p-value = 0.7604
## alternative hypothesis: true autocorrelation is greater than 0
residuos <- resid(model1)
# Calcular la autocorrelación parcial utilizando pacf()
pacf_resultados <- pacf(residuos)

# Crear el gráfico de autocorrelación parcial
plot(pacf_resultados, main = "Gráfico de Autocorrelación Parcial")

Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.7604, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.

También podemos finarnos en el estadístico de Durbin-Watson, que en este caso es igual a 2.2253, que está cercano a 2. Entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.

Multicolinealidad

library(car)
## Loading required package: carData
vif(model1)
##      IMI       NF      CFM 
## 1.080643 1.042803 1.092436
vif_modelo= vif(model1)
##Se considera que una variable tiene una multicolinealidad problemática si su VIF es mayor que 5 o 10, aunque el umbral exacto puede variar dependiendo del contexto.

library(ggplot2)
# Crear un dataframe con los valores de VIF y los nombres de las variables
df_vif <- data.frame(Variable = names(vif_modelo), VIF = vif_modelo)
# Crear el gráfico de barras
grafico_vif <- ggplot(data = df_vif, aes(x = Variable, y = VIF)) +
  geom_bar(stat = "identity", fill = "pink") +
  labs(title = "Valores de VIF", x = "Variable", y = "VIF")
# Mostrar el gráfico
print(grafico_vif)

Se considera que una variable tiene una multicolinealidad problemática si su VIF es mayor que 5 o 10, este modelo no presenta multicolinealidad.

plot(model1)

La línea roja es un ajuste local de los residuos que suaviza los puntos del diagrama de dispersión para facilitad la detección patrones en los residuos. Lo que buscamos es que esta línea roja no describa un comportamiento lineal recta creciente ni decreciente.