Unidad 2, caso de estudio 1 “problemática de la basura en México”, aplicando la probabilidad.

library(readr)
library(DT)
basura <- read_csv("basura.csv")
## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double(),
##   VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
datatable(basura)
plot(basura$basura)

plot(basura$rellenos)

plot(basura$anio)

plot(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)

cor(basura)
##                                   anio    basura  rellenos
## anio                         1.0000000 0.9495559 0.9435149
## basura                       0.9495559 1.0000000 0.9393043
## rellenos                     0.9435149 0.9393043 1.0000000
## VOLUMEN_DEPUESTO_SIN_CONTROL        NA        NA        NA
##                              VOLUMEN_DEPUESTO_SIN_CONTROL
## anio                                                   NA
## basura                                                 NA
## rellenos                                               NA
## VOLUMEN_DEPUESTO_SIN_CONTROL                            1
pairs(basura)

sd(basura$basura)
## [1] 3659.721

¿Es posible predecir la probabilidad de generación de basura?

Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?

# TAbla de distribución de frecuencia
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(basura$basura, breaks="Sturges")
dist
##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00
#histograma de frecuencia absoluta
plot(dist,type="fh")

summary(basura$basura)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063
sd(basura$basura)
## [1] 3659.721
boxplot(basura$basura)

Apararentemente según los análisis anteriores parecería que los datos no son normales dado que su tendencia no está alineada a la media

¿Cómo podemos saber si los datos son normales o no?

Para esto usaremos la prueba de normalidad de Shapiro-Wilk

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Analizando el valor de p < 0.05, concluimos que los datos no son normales.

Si los datos no son normales, ¿que resultados tendríamos si usamos la distribución normal para predecir probabilidad?

Para poder calcular probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:

pnorm(45000, mean= 34153, sd=3659.721, lower.tail = TRUE)
## [1] 0.9984811

Asignación:

El test del Shapiro-Wilk dio que $ W = 0.92441 $ y $ p-value = 0.1753 $ esto quiere decir que no es normar su comportamiento de los datos esto nos quiere decir que no es el analisis mas correcto que se puede aplicar probabilidad.

Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

basura$VOLUMEN_DEPUESTO_SIN_CONTROL[3:17]
##  [1] 16655.12 12945.92 13286.45 13096.47 12141.93 12182.37 10954.80 11401.84
##  [9] 11344.00 11423.40 10971.30 10880.00 10725.00 10123.40  9519.40

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor

dist <- fdt(basura$VOLUMEN_DEPUESTO_SIN_CONTROL, breaks="Sturges")
plot(dist,type="cfh")

summary(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    9519   10917   11402   11843   12564   16655       2

El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.