Primer caso de estúdio: problema de la basura en México
Objetivo: realizar un diagnóstico de la generación de residuos sólidos en México y saber si los relleno sanitarios pueden cumplir la demanda
Contestar lo siguiente:
1.- ¿Cómo ha aumentado la producción de basura en México?
2.- ¿Los rellenos son suficientes para atender la demanda de generación de basura?
3.- ¿Es posible usar la distribución normal para predecir la probabilidad de incremento de generación de basura?
Extraer datos y librerias
library(pacman)
p_load("DT", "readr")
basura <- read_csv("basura.csv")## Parsed with column specification:
## cols(
## anio = col_double(),
## basura = col_double(),
## rellenos = col_double()
## )
datatable(basura)Visualización de basura generada en México de 1995 a 2011
plot(basura$anio, basura$basura, title(main = 'Basura generada en toneladas'), xlab = 'Año', ylab = 'Basura generada')
Rectabasura <- lm(basura$basura ~ basura$anio)
abline(Rectabasura, col='blue', lwd='3')summary(Rectabasura)##
## Call:
## lm(formula = basura$basura ~ basura$anio)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1355.49 -751.81 -124.62 42.68 2623.36
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.344e+06 1.175e+05 -11.44 8.32e-09 ***
## basura$anio 6.882e+02 5.868e+01 11.73 5.92e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1185 on 15 degrees of freedom
## Multiple R-squared: 0.9017, Adjusted R-squared: 0.8951
## F-statistic: 137.5 on 1 and 15 DF, p-value: 5.915e-09
Ecuación de la recta
\[y=-1.344x10^6+6.882x10^2x \]
- 1.- ¿Cómo ha aumentado la producción de basura en México? Según la gráfica, a partir del año 2004 el aumento de basura fue lineal hasta e año 2009 porque en el siguiente año se ve como incrementa más la generación de basura. La recta del gráfico nos indica que la generción de basura aumenta 6.882x10^2 por cada año, este valor no es muy justo pero nos da una idea de la generación de basura que tiene México.
Visualización de rellenos sanitarios en México
plot(basura$basura, basura$rellenos, title(main = 'Rellenos vs basura generada'), xlab = 'Basura generada', ylab = 'Rellenos sanitarios')
Rectarellenos <- lm(basura$rellenos ~ basura$basura)
abline(Rectarellenos, col='purple', lwd='3')summary(Rectarellenos)##
## Call:
## lm(formula = basura$rellenos ~ basura$basura)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.438 -12.358 -1.054 15.864 20.630
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.239e+02 3.956e+01 -8.19 6.45e-07 ***
## basura$basura 1.222e-02 1.152e-03 10.60 2.30e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.86 on 15 degrees of freedom
## Multiple R-squared: 0.8823, Adjusted R-squared: 0.8744
## F-statistic: 112.4 on 1 and 15 DF, p-value: 2.299e-08
Ecuación de la recta
\[y=-3.239x10^2+.01222x \]
- 2.- ¿Los rellenos son suficientes para atender la demanda de generación de basura? Se aprecia en la gráfica que mientras aumenta la generación de basura, los rellenos sanitarios también lo hacen aunque a menor proporcionalidad, pero para contestar esta pregunta se tendria que hacer un analisis estadistico en torno a la capacidad de cada relleno y a las capacidades totales para hacer una comparación y optener un resultado satisfasga este cuestionamiento.
Relación entre las 3 variables
triplerelacion <- data.frame(basura$anio, basura$basura, basura$rellenos)
pairs(triplerelacion)- Con este analisis vemos que las trs variables estan relacionadas entre sí, un analisis de correlacion mediante la visualización de gráficas.
Distribución normal
mean(basura$basura)## [1] 34153.28
sd(basura$basura)## [1] 3659.721
max(basura$basura)## [1] 41062.5
Predecir la probabilidad de que se genere mas toneladas de basura que el valor maximo dentro de la tabla
pnorm(42000, mean = 34153.28, sd = 3659.721, lower.tail = TRUE)## [1] 0.9839866
pnorm(47800, mean = 34153.28, sd = 3659.721, lower.tail = TRUE) #Punto de "error"## [1] 0.9999038
3.- ¿Es posible usar la distribución normal para predecir la probabilidad de incremento de generación de basura? Sí es posible ya que acabamos de predecir la probabilidad de que se de un incremento de 42000 toneladas de basura generada y nos arrojo una probabilidad de 98.93%, por lo que estamos prediciendo cuales serian los proximos datos nuevos en base a los que tenemos.
4.- ¿Es la distribución normal la mejor manera de predecir probabilidad para estos datos? Mientras no se aleje demasiado del valor maximo registrado, no habra problemas para la predicción pero si se quiere obtener un valor mucho mayor al del máximo de la tabla, se tendra un error ya que siempre dara una probabilidad mayor a 99.99% (del 47800 la probabilidad se mayor a 99.99%).
5.- ¿Los datos son normales?
6.- ¿Que distribución se ajusta mejor a estos datos? La normal ya que esta es muy usada para varios ambitos y puede predecir acertadamente mientras no se encuentre muy por fuera del límite máximo.