setwd("~/ProbabilidadYEstadistica")

Unidad 2, caso de estudio 1 “Problematica de la basura en México”,

Aplicando la probabilidad.

library("readr")
library("DT")
basura <- read_csv("basura.csv")
## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double()
## )
datatable(basura)
plot(basura$basura)

plot(basura$rellenos)

cor(basura)
##               anio    basura  rellenos
## anio     1.0000000 0.9495559 0.9435149
## basura   0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
pairs(basura)

¿Es posible predecir la probabilidad de generación de basura?

Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?

# Tabla de distribución de frecuencia
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(basura$basura, breaks = "Sturges")
dist
##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00
# Histograma de frecuencia absoluta
plot(dist, type = "fh")

summary(basura$basura)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063
sd(basura$basura)
## [1] 3659.721
boxplot(basura$basura)

Aparentemente según los análisis anteriores parecería que los datos no son normales dado a su tendencia no está alineada a la media

¿cómo podemos saber si los datos son normales o no?

para esto usaremos la prueba de normalidad de shapiro-wilk

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Analizando que el valor de p < 0.05, concluimos que los datos NO son normales.

Si los datos no son normales, ¿que resultados tendríamos si usamos la distribucion normal para predecir la probabilidad?

Para poder calcular la probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:

#Si usamos el sort(basura$basura) veremos nuestro minimo y maximo de basura

# Calculamos la probabilidad según la desnidad de probabilidad, conocer la probabilidad para que un x dato exista
pnorm(45000, mean =34153, sd=3659.721, lower.tail = TRUE)
## [1] 0.9984811

Asignación:

hist(basura$basura)

No lo es, esto porque los datos al ser anormales provoca que tengamos que utilizar otras distribuciones. Estos pueden ser la de Poisson, la logaritmica, distribución chiscu 2, Uniforme, t-Student, f-Fisher etc.

Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

residuosNoControl<- read_csv("residuos solidos urbanos depuestos sin control.csv")
## Parsed with column specification:
## cols(
##   AÑO = col_double(),
##   VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
datatable(residuosNoControl)

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor

El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.

¿Los datos son normales?

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Dado que el valor de P no es representativo, entonces la distribución de valores no es normal

¿Que distribución se ajusta mejor a estos datos?

Primero se probará un ajuste con distribución exponencial, dado que se tiene la premisa de que la generación de basura responde al incremento poblacional y este asu vez se comporta de manera exponencial

¿Que distribuciones existen?

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución \(\chi^2\) chisq Distribución F

¿Que prefijos se usan en estas distribuciones para hacer cálculos?

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

¿Como funciona la distribución exponencial?

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

$ f(x)=e^{-x},; x0,;>0 $

Luego, con λ=32916 tenemos que:

pexp((basura$basura * 2), rate=32916, log = FALSE)
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
pexp((basura$basura * 2), rate=1/32916, log = FALSE)
##  [1] 0.8433570 0.8565656 0.8311279 0.8437473 0.8475141 0.8454713 0.8524020
##  [8] 0.8584202 0.8646622 0.8778572 0.8836594 0.8887070 0.8935355 0.8981546
## [15] 0.9025733 0.9123145 0.9175025

Con esto sabemos que la basura 100% va a aumentar año tras año, pero siguiendo la formula \[ 1/\lambda \] nos da diferente nivel de porcentaje porque los tiempos en que se van generando la basura no es el mismo al del año pasado.

¿Cual es la curva función de densidad de esta probabilidad exponencial?

#curve(dexp(x, rate=32916), xlim=c(1995, 2011), xlab="Año", y= "Densidad de probabilidad")

Ahora que conocemos esta premisa, responda lo siguiente:

¿Que probabilidad hay de que la generación de basura se genere al doble? -pista: estimar el incremento que se tiene por año (preguntar al profe)

pexp((41062.5*2), rate =32916)
## [1] 1
pexp((41062.5*2), rate =1/32916)
## [1] 0.9175025

Con esto vemos que tenemos un 100% de probabilidad de que la basura haya aumetado para el siguiente año, Pero si se sigue la formula \[ 1/\lambda \] nos da un porcentaje de 91% esto porque la formula estima el 100% sobre la media.