Asignación U2A9: Caso de estudio: aplicaciones de la probabilidad a la problemática de la basura en México.

Problemática de la basura en México

Importación de paquetes y datos

setwd("~/PYE1112ITSON")
library(pacman)
p_load("readr","DT","prettydoc","fdth","readxl")
basura <- read_csv("basura.csv")

## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double()
## )

datatable(basura)

Visualización de los datos

plot(basura$basura)

plot(basura$rellenos)

plot(basura$anio, basura$basura)

Viendo los cambios que se generan en la producción de basura en años específicos, conteste lo siguiente: ¿Que sucedio estos años que potencialmente pudiera haber causado este aumento? revisión literaria, noticias, entradas de blog

Coeficiente de correlación de pearson y matriz de diagramas de dispersión

cor(basura)

##               anio    basura  rellenos
## anio     1.0000000 0.9495559 0.9435149
## basura   0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000

pairs(basura)

¿De que manera podemos estimar la producción de basura utilizando la distribución normal?

Para poder utilizar la distribución de probabilidad normal, los datos tendrían que necesariamente ser normales

Análisis de distribución de frecuencia y prueba de normalidad

#BASURA
#Ordenar de menor a mayor
sort(basura$basura)

##  [1] 29272.42 30509.61 30550.67 30733.26 30952.28 31488.48 31959.42 32173.61
##  [9] 32915.70 34604.00 35405.00 36135.00 36865.00 37595.00 38325.00 40058.75
## [17] 41062.50

#Resumen estadístico
summary(basura$basura)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063

#Rellenos
#Ordenar de menor a mayor
sort(basura$rellenos)

##  [1]  30  31  46  64  66  68  70  71  89  90  95 104 114 128 137 186 196

#Resumen estadístico
summary(basura$rellenos)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   30.00   66.00   89.00   93.24  114.00  196.00

Tabla de distribución de frecuencias para basura

dist <- fdt(basura$basura, breaks="Sturges")
dist

##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00

plot(dist,type="fh")

Medidas de dispersión para la basura

#Desviación estándar
sd(basura$basura)

## [1] 3659.721

Estimación de probabilidades usando la distribución normal

Estimación de la probabilidad utilizando la función de densidad de probabilidad

pnorm(45000, mean=34153, sd=3659.721, lower.tail = TRUE)

## [1] 0.9984811

Asignación:

¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?

No, porque los datos no son normales, es decir, no se agrupan de forma simétrica cerca de la media.

shapiro.test(basura$basura)

## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Se obtuvo un p-value alto (mayor a 0.05), lo que indica que los datos no son normales.

¿Que tantos de estos residuos no tienen control? es decir, no llegan a rellenos

Para esto utilice los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

residuos <- read_excel("residuos_solidos_urbanos_depuestos_sin_control.xlsx")

datatable(residuos)

plot(residuos$AÑO, residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

¿Que tantos residuos sin control se han ido generando desde 1997 hasta 2012?

#Suma acumulada
acumulados <- cumsum(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)
acumulados

##  [1]  16655.12  29601.04  42887.49  55983.96  68125.89  80308.26  91263.06
##  [8] 102664.90 114008.90 125432.30 136403.60 147283.60 158008.60 168132.00
## [15] 177651.40 186331.01

plot(acumulados)

De 1997 a 2012 se han generado 186331.01 toneladas de residuos depuestos sin control.

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor. El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.

Calculando probabilidad usando la distribución normal

¿Los datos son normales?

Analizando los datos

#Histograma
hist(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

#Tabla de distribuciones de freciencias
dist2 <- fdt(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL, breaks="Sturges")
dist2

##           Class limits f   rf rf(%) cf  cf(%)
##  [8592.8139,10238.585) 3 0.19 18.75  3  18.75
##  [10238.585,11884.357) 7 0.44 43.75 10  62.50
##  [11884.357,13530.128) 5 0.31 31.25 15  93.75
##    [13530.128,15175.9) 0 0.00  0.00 15  93.75
##    [15175.9,16821.671) 1 0.06  6.25 16 100.00

#Ordenar de menor a mayor
sort(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

##  [1]  8679.61  9519.40 10123.40 10725.00 10880.00 10954.80 10971.30 11344.00
##  [9] 11401.84 11423.40 12141.93 12182.37 12945.92 13096.47 13286.45 16655.12

#Resumen estadístico
summary(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8680   10841   11373   11646   12373   16655

#Desviación estándar
sd(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

## [1] 1831.542

#Matriz de correlación
cor(residuos)

##                                     AÑO VOLUMEN_DEPUESTO_SIN_CONTROL
## AÑO                           1.0000000                   -0.8939533
## VOLUMEN_DEPUESTO_SIN_CONTROL -0.8939533                    1.0000000

#Prueba de normalidad
shapiro.test(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos$VOLUMEN_DEPUESTO_SIN_CONTROL
## W = 0.91562, p-value = 0.1434

Usando la distribución normal para calcular probabilidad usando PDF

max(residuos$VOLUMEN_DEPUESTO_SIN_CONTROL)

## [1] 16655.12

#PARA LA BASURA PRODUCIDA
pnorm(35000, mean=34153, sd=3659.721, lower.tail = TRUE)

## [1] 0.5915129

#PARA LOS RESIDUOS SIN CONTROL
pnorm(12000, mean=11646 , sd=1831.542, lower.tail = TRUE)

## [1] 0.5766301

pnorm(18000, mean=11646, sd=1831.542, lower.tail = TRUE)

## [1] 0.999739

¿Estos resultados son óptimos?

No, dado que los datos no se comportan se manera normal

¿Que distribuciones existen?

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución $\chi^2$ chisq Distribución F f

¿Que prefijos se usan en estas distribuciones para hacer cálculos?

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

¿Qué se ajusta mejor?

Primero veamos la distribución exponencial

¿Por qué consideramos que la distribución exponencial será útil para predecir la generación de basura? - Dado que la generación de basura responde al incremento poblacional, y este a su vez SI se comporta de manera exponencial.

Cálculo de probabailidad utilizando distribución exponencial

#PARA LA BASURA PRODUCIDA

#Estimación del lambda:
#Qué tanto aumenta un año con respecto a otro, la diferencia
#Delta en función de x

#diferencia de basura producida entre los dos últimos años con registro
#basura(2011) - basura(2010)
deltabasura <- 41062.50 - 40058.75
deltabasura

## [1] 1003.75

pexp(q=3000, rate=1/deltabasura)

## [1] 0.9496518

Ahora que conocemos esta premisa, responda lo siguiente:

¿Que probabilidad hay de que la generación de basura se genere al doble?

#Cantidad de basura en 2011 (último año con datos): 41062.50 ton
doble <- 41062.50*2
doble

## [1] 82125

pexp(doble, rate=1/deltabasura)

## [1] 1

La probabilidad de que la producción de basura se doble es de 1, es decir 100%

CONCLUSIÓN

La basura es una problemática en México porque no existen suficientes rellenos sanitarios para su gestión, y existen también muchos residuos sin algún tipo de control, los cuales terminan en basureros al aire libre contaminantes para el ambiente y salud pública. Además, al producción de basura posee un ritmo de crecimiento exponencial debido al mismo incremento poblacional.

La distribución normal es una herramienta últil para el cálculo de probabilidad pero únicamente cuando los datos son normales.
Pueden utilizarse otras distribuciones, como la exponencial para el análisis de datos, con un crecimiento o decrecimiento acelerado; y funciones en R para el cálculo de probabilidades.

Anexo

Problema acerca de la distribución exponencial

Suponga que el tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos.

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

$ f(x)=e^{-x},; x0,;>0 $

Luego, con λ=3 tenemos que:

pexp(2, rate=3)

## [1] 0.9975212

¿Cuál sería la probabilidad de demorar entre 5 y 6 minutos

P(X<=6)-P(X<=5)

pexp(6, rate=3) - pexp(5,rate=3)

## [1] 2.906723e-07

¿Cual es la curva función de densidad de esta probabilidad exponencial?

curve(dexp(x, rate=3), xlim=c(0,10), xlab="valores de x", y= "Densidad de probabilidad")