Asignación U2A9: Caso de estudio: aplicaciones de la probabilidad a la problemática de la basura en México.
- Importacion de paquetes y datos
## Parsed with column specification:
## cols(
## anio = col_double(),
## basura = col_double(),
## rellenos = col_double()
## )
Visualización de los datos
Viendo los cambios que se generan en la producción de basura en años específicos, conteste lo siguiente: ¿Qué sucedio estos años que potencialmente pudiera haber causado este aumento? Revisión literaria, noticias, entradas de blog[…]
Se nota que la basura en el año 2004 subió considerablemente de el año 2003. Después de este año se analizaron y aprobaron normas para la regulaciónn de residuos, respondiendo a la demanda del crecimiento demográfico, de los servicios y la modificación de actividades productiva. Por ello se incrementan los rellenos. Fuente http://www.profepa.gob.mx/innovaportal/file/1306/1/nom-083-semarnat-2003.pdf
La basura en el 2010-2011 aumentó considerablemente debido a que el consumismo también lo hizo. En Zacatecas la basura aumentó un 2.7% Fuente http://ntrzacatecas.com/2012/12/14/aumenta-generacion-de-basura-2-7-de-2010-a-2011/
- Coeficiente de correlación de Pearson
## anio basura rellenos
## anio 1.0000000 0.9495559 0.9435149
## basura 0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
¿De qué manera podemos estimar la producción de basura utilizando la distribución normal?
Para poder utilizar la distribucín de probabilidad normal, los datos tendrían que necesariamente ser normal.
Análisis de distribución de frecuencia y prueba de normalidad
## [1] 29272.42 30509.61 30550.67 30733.26 30952.28 31488.48 31959.42 32173.61
## [9] 32915.70 34604.00 35405.00 36135.00 36865.00 37595.00 38325.00 40058.75
## [17] 41062.50
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 29272 30952 32916 34153 36865 41063
## [1] 30 31 46 64 66 68 70 71 89 90 95 104 114 128 137 186 196
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 30.00 66.00 89.00 93.24 114.00 196.00
- Tabla de distribución de fecuencias para basura
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
## Class limits f rf rf(%) cf cf(%)
## [28979.696,31061.934) 5 0.29 29.41 5 29.41
## [31061.934,33144.172) 4 0.24 23.53 9 52.94
## [33144.172,35226.41) 1 0.06 5.88 10 58.82
## [35226.41,37308.649) 3 0.18 17.65 13 76.47
## [37308.649,39390.887) 2 0.12 11.76 15 88.24
## [39390.887,41473.125) 2 0.12 11.76 17 100.00
- Medidas de disprsión para la basura
## [1] 3659.721
Estimación de probabilidades usando la distribución normal.
- Estimación de la probabilidad utilizando la función de densidad de probabilidad
## [1] 0.9984811
Asignación:
- ¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?
##
## Shapiro-Wilk normality test
##
## data: basura$basura
## W = 0.92441, p-value = 0.1753
El valor de p es mayor a 0.05, por lo tanto no es representativo y los datos no se comportan de manera nomal.
- ¿Qué tantos de estos residuos no tienen control? Es decir, no llegan a rellenos.
Para estos utilicen los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos
## Parsed with column specification:
## cols(
## AÑO = col_double(),
## VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
¿Que tantos residuos sin control se han ido generando desde 1997 hasta 2012?
-Suma acumulada
## [1] 16655.12 29601.04 42887.49 55983.96 68125.89 80308.26 91263.06
## [8] 102664.90 114008.90 125432.30 136403.60 147283.60 158008.60 168132.00
## [15] 177651.40 186331.01
Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor
El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.
Calculando probabilidad usando la distribución normal
¿Los datos son normales?
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8680 10841 11373 11646 12373 16655
## [1] 1831.542
##
## Shapiro-Wilk normality test
##
## data: residuosc$VOLUMEN_DEPUESTO_SIN_CONTROL
## W = 0.91562, p-value = 0.1434
Usando la distribución normal para calcular probabilidad usando PDF
## [1] 16655.12
## [1] 0.999739
¿Estos resultados son óptimos?
no, dado que los datos no se comportan de manera normal
¿Que distribuciones existen?
Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución \(\chi^2\) chisq Distribución F f
¿Que prefijos se usan en estas distribuciones para hacer cálculos?
$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]$$
¿Qué se ajusta mejor?
Primero veamos la distribución exponencial
¿Por qué consideramos que la distribución exponencial será útil para predecir la generación de basura? Dado que la generación de basura responde al incremento poblacional, y este a su vez SI se comporta de manera exponencial.
- Problema acerca de la distribución exponencial
Suponga que el tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos.
Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:
\[ f(x)=\lambda e^{-\lambda x},\; x\geq 0,\;\lambda>0 \]
Luego, con λ=3 tenemos que:
## [1] 0.9975212
Cual sería la probabilidad de demorar entre 5 y 6 minutos P(X<=6)-P(X<=5)
## [1] 2.906723e-07
¿Cual es la curva función de densidad de esta probabilidad exponencial?
Ahora que conocemos esta premisa, responda lo siguiente:
¿Que probabilidad hay de que la generación de basura se genere al doble?
## [1] 1
Según la distribución exponencial, la probabilidad de que esto suceda es toda.