setwd("~/EstadisticaAplicada")

Basura en México

Caso de estudio de la 2da unidad de la materia de estadística aplicada en el cual se aborda la temática del problema de la basura en México

Antecedentes

¿Qué es la basura?

El término basura se refiere a cualquier residuo inservible, a todo material no deseado y del que se tiene intención de desechar.

¿La basura es un problema?

Además de la contaminación del aire, la tierra y el agua; la mala gestión de los residuos tiene efectos perjudiciales para la salud pública (por la contaminación ambiental y por la posible transmisión de enfermedades infecciosas vehiculizadas por los roedores que los habitan) y degradación del medio ambiente en general, además de impactos paisajísticos.

Asimismo, la degradación ambiental conlleva costos sociales y económicos tales como la devaluación de propiedades, pérdida de la calidad ambiental y sus efectos en el turismo.

¿Cómo es la problemática de la basura en México?

https://www.animalpolitico.com/2018/10/mexico-genera-basura-paises-america-latina/

El planeta genera más de 2.000 millones de toneladas de basura al año, pero expertos calculan que produciremos hasta 3.400 millones en el año 2050. ¿Cómo contribuye América Latina a estas preocupantes cifras?

Asignación sería:

Utilizando los datos proporcionados conteste a las siguientes preguntas:

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "knitr", "DT", "tidyverse", "scales", "gridExtra", "modeest", "fdth", "caTools")
datos <- read_csv("basura.csv")

## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double()
## )

datatable(datos)

# Resumen de datos

summary(datos)

##       anio          basura         rellenos     
##  Min.   :1995   Min.   :29272   Min.   : 30.00  
##  1st Qu.:1999   1st Qu.:30952   1st Qu.: 66.00  
##  Median :2003   Median :32916   Median : 89.00  
##  Mean   :2003   Mean   :34153   Mean   : 93.24  
##  3rd Qu.:2007   3rd Qu.:36865   3rd Qu.:114.00  
##  Max.   :2011   Max.   :41063   Max.   :196.00

#Correlación de pares
pairs(datos)

#Variables

#Basura
basura <- datos$basura

#Anio
anio <- datos$anio

#Rellenos
rellenos <- datos$rellenos

Gráfico

cor(basura, anio)

## [1] 0.9495559

# Regresión lineal
r1<-lm(basura~anio)
r1

## 
## Call:
## lm(formula = basura ~ anio)
## 
## Coefficients:
## (Intercept)         anio  
##  -1344259.7        688.2

#x <- anio
#y <- basura

Primer gráfico

plot(anio, basura, col="blue", title(main="Relación de basura por año"))
abline(r1)

r2<-lm(rellenos~basura)
r2

## 
## Call:
## lm(formula = rellenos ~ basura)
## 
## Coefficients:
## (Intercept)       basura  
##  -323.94059      0.01221

Segundo gráfico

plot(basura,rellenos, col=" blue", title(main="Aumento de rellenos por la basura"))
abline(r2)

1.- ¿Cómo ha aumentado la producción de basura en México? Ha estado aumentando significativamente, aunque hubo una excepciòn por el año 1997, en el cual Mexico tuvo su menor dato de basura, despues de ese año el aumento de basura fue constante.

2.- ¿Los rellenos son suficientes para atender la demanda de generación de basura? Como realmente la mayoría de los ciudadanos no se deshace de su basura de una manera debida en un futuro requeriremos mas rellenos para atender la demanda, el aumento de rellenos por año.

3.-¿Es posible usar la distribución normal para predecir la probabilidad de incremento de generación de basura?

#Predicción de basura p/año
mediaBasura<-mean(datos$basura) #media
sdBasura<-sd(datos$basura) #desviaciòn estandar
max(datos$basura) #valor maximo

## [1] 41062.5

pnorm(45000, mediaBasura,sdBasura, lower.tail = TRUE)

## [1] 0.9984807

El 99% de probabilidad de la generación de 45 mil toneladas por año

Regresión Polinomial

y <- datos$basura
x <- datos$anio
xsq <- x^2
xcub <- x^3
xquar <- x^4
plot(x,y,pch = 19, xlab = "años", ylab = "Basura generada por año", title(main = "Basura generada por año"))

fit1 <- lm(y~x)
anova(fit1)

## Analysis of Variance Table
## 
## Response: y
##           Df    Sum Sq   Mean Sq F value    Pr(>F)    
## x          1 193222184 193222184  137.53 5.915e-09 ***
## Residuals 15  21074728   1404982                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tenemos 99% de probabilidad de que se presente un valor de generación de basura de 45,000 toneladas por año

¿Es la distribución normal la mejor manera de predecir probabilidad para estos datos?

¿Los datos son normales?

shapiro.test(datos$basura)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$basura
## W = 0.92441, p-value = 0.1753

Dado que el valor de p no es representativo, entonces la distribución de valores no es normal

¿Que distribución se ajusta mejor a estos datos?

Primero se probará un ajuste con distribución exponencial, dado que se tiene la premisa de que la generación de basura responde al incremento poblacional y este asu vez se comporta de manera exponencial

¿Que distribuciones existen?

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución $\chi^2$ chisq Distribución F

¿Que prefijos se usan en estas distribuciones para hacer cálculos?

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

¿Como funciona la distribución exponencial?

Problema acerca de la distribución exponencial

Suponga que el tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos.

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

\[ f(x)=\lambda e^{-\lambda x},\; x\geq 0,\;\lambda>0 \]

Luego, con λ=3 tenemos que:

pexp(2, rate=3)

## [1] 0.9975212

Cual sería la probabilidad de demorar entre 5 y 6 minutos P(X<=6)-P(X<=5)

pexp(6, rate=3) - pexp(5,rate=3)

## [1] 2.906723e-07

¿Cual es la curva función de densidad de esta probabilidad exponencial?

curve(dexp(x, rate=3), xlim=c(0,10), xlab="valores de x", y= "Densidad de probabilidad")

Ahora que conocemos esta premisa, responda lo siguiente:

¿Que probabilidad hay de que la generación de basura se genere al doble?

-pista: estimar el incremento que se tiene por año

mean(datos$basura)

## [1] 34153.28

#Ratio de 2000, la probabilidad de que x=4500 > 2000
pexp(4500, rate = 2000)

## [1] 1

El valor de la basura aumenta a los valores estimados

U2A2