U2A9

Marijose González del Real

2/Nov/2020

Asignación U2A9: Caso de estudio: aplicaciones de la probabilidad a la problemática de la basura en México.

  • Importación de paquetes y datos
library(readr)
library(DT)
basura <- read_csv("basura.csv")
## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double()
## )
datatable(basura)

Visuzalización de los datos

plot(basura$basura)

plot(basura$rellenos)

Viendo los cambios que se generan en la producción de basura en años específicos, conteste lo siguiente: ¿Que sucedio estos años que potencialmente pudiera haber causado este aumento? revisión literaria, noticias, entradas de blog

  • Coeficiente de correlación de pearson y matriz de diagramas de dispersión
cor(basura)
##               anio    basura  rellenos
## anio     1.0000000 0.9495559 0.9435149
## basura   0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
pairs(basura)

¿De que manera podemos estimar la producción de basura utilizando la distribución normal?

Para poder utilizar la distribución de probabilidad normal, los datos tendrían que necesariamente ser normales

Análisis de distribución de frecuencia y prueba de normalidad

#Basura
sort(basura$basura)
##  [1] 29272.42 30509.61 30550.67 30733.26 30952.28 31488.48 31959.42 32173.61
##  [9] 32915.70 34604.00 35405.00 36135.00 36865.00 37595.00 38325.00 40058.75
## [17] 41062.50
summary(basura$basura)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063
#Rellenos

sort(basura$rellenos)
##  [1]  30  31  46  64  66  68  70  71  89  90  95 104 114 128 137 186 196
summary(basura$rellenos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   30.00   66.00   89.00   93.24  114.00  196.00
  • Tabla de distribución de frecuencias para basura
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(basura$basura, breaks="Sturges")
dist
##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00
plot(dist,type="fh")

  • Medidas de dispersión para la basura
sd(basura$basura)
## [1] 3659.721

Estimación de probabilidades usando la distribución normal

  • Estimación de la probabilidad utilizando la función de densidad de probabilidad
pnorm(45000, mean=34153, sd=3659.721, lower.tail = TRUE)
## [1] 0.9984811

Asignación:

  • ¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?

No, debido a que no se muestra una distribución normal, por lo tanto considero que se debe utilizar otro tipo de distribución que se adapte mejor.

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

El valor de p es mayor a 0.05, por lo tanto no es representativo y los datos no se comportan de manera normal

  • ¿Que tantos de estos residuos no tienen control? es decir, no llegan a rellenos

Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor

El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.

sincontrol <- read_csv("sincontrol.csv")
## Parsed with column specification:
## cols(
##   AÑO = col_double(),
##   VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
datatable(sincontrol)

¿Qué tantos residuos sin control se han ido generando desde 1997 hasta 2012?

acumulados <- cumsum(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)
acumulados
##  [1]  16655.12  29601.04  42887.49  55983.96  68125.89  80308.26  91263.06
##  [8] 102664.90 114008.90 125432.30 136403.60 147283.60 158008.60 168132.00
## [15] 177651.40 186331.01
plot(acumulados)

plot(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)

  • Coeficiente de correlación de pearson y matriz de diagramas de dispersión
cor(sincontrol)
##                                     AÑO VOLUMEN_DEPUESTO_SIN_CONTROL
## AÑO                           1.0000000                   -0.8939533
## VOLUMEN_DEPUESTO_SIN_CONTROL -0.8939533                    1.0000000
pairs(sincontrol)

¿De que manera podemos estimar la producción de basura sin control utilizando la distribución normal?

Para poder utilizar la distribución de probabilidad normal, los datos tendrían que necesariamente ser normales

Análisis de distribución de frecuencia y prueba de normalidad

#Basura sin control
sort(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)
##  [1]  8679.61  9519.40 10123.40 10725.00 10880.00 10954.80 10971.30 11344.00
##  [9] 11401.84 11423.40 12141.93 12182.37 12945.92 13096.47 13286.45 16655.12
summary(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8680   10841   11373   11646   12373   16655
  • Tabla de distribución de frecuencias para basura sin control
dist2 <- fdt(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL, breaks="Sturges")
dist2
##           Class limits f   rf rf(%) cf  cf(%)
##  [8592.8139,10238.585) 3 0.19 18.75  3  18.75
##  [10238.585,11884.357) 7 0.44 43.75 10  62.50
##  [11884.357,13530.128) 5 0.31 31.25 15  93.75
##    [13530.128,15175.9) 0 0.00  0.00 15  93.75
##    [15175.9,16821.671) 1 0.06  6.25 16 100.00
plot(dist2,type="fh")

shapiro.test(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)
## 
##  Shapiro-Wilk normality test
## 
## data:  sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL
## W = 0.91562, p-value = 0.1434
  • Medidas de dispersión para la basura sin control
sd(sincontrol$VOLUMEN_DEPUESTO_SIN_CONTROL)
## [1] 1831.542

Estimación de probabilidades usando la distribución normal

  • Estimación de la probabilidad utilizando la función de densidad de probabilidad
pnorm(18000, mean=11646, sd=1831.542, lower.tail = TRUE)
## [1] 0.999739

Por lo tanto, es muy probable que la basura sin control aumente a 18,000

¿Estos resultados son óptimos?

No, dado que los datos no se comportan de manera normal

pexp(18000, rate=11646)
## [1] 1

¿Qué distribuciones existen?

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución \(\chi^2\) chisq Distribución F f

¿Qué prefijos se usan en estas distribuciones para hacer cálculos?

\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

¿Qué se ajusta mejor?

Primero veamos la distribución exponencial

¿Por qué consideramos que la distribución exponencial será útil para predecir la generación de basura? Dado que la generación de basura responde al incremento poblacional, y este a su vez SI se comporta de manera exponencial.

  • Problema acerca de la distribución exponencial

Suponga que el tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos.

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

$ f(x)=e^{-x},; x0,;>0 $

Luego con lambda=3 tenemos que:

pexp(2, rate=3)
## [1] 0.9975212

Cuál sería la probabilidad de demorar entre 5 y 6 minutos

P(X<=6)-P(X<=5)

pexp(6, rate=3) - pexp(5, rate=3)
## [1] 2.906723e-07

¿Cuál es la función de densidad de esta probabilidad exponencial?

curve(dexp(x, rate=3), xlim=c(0,10), xlab="Valores de x", y= "Densidad de probabilidad")

Ahora que conocemos esta premisa, responda lo siguiente:

¿Qué probabilidad hay de que la generación de basura se genere al doble?

  • ¿Qué tanto aumenta la cantidad de basura con respecto a un año de otro?

Considerando el delta de 2010 al 2011 sería:

lambda = 41062.5 - 40058.75
pexp(q=82125, rate=34153 / lambda)
## [1] 1

Por lo tanto, es muy probable que la cantidad de basura en México se multiplique