Unidad 2, caso de estudio 1 “problemática de la basura en México”, aplicando la probabilidad.

Importar datos y paquetes

library(readr)
library(DT)
basura <- read_csv("basura.csv")

## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double(),
##   VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )

datatable(basura)

Al ver los datos en una gráfica podemos saber si la cantidad de rellenos corresponde a la cantidad de basura generada.

plot(basura$basura)

plot(basura$rellenos)

plot(basura$anio)

plot(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)

Análisis de correlación con matriz de diagramas de dispersión y coeficiente de correlación de pearson

cor(basura)

##                                   anio    basura  rellenos
## anio                         1.0000000 0.9495559 0.9435149
## basura                       0.9495559 1.0000000 0.9393043
## rellenos                     0.9435149 0.9393043 1.0000000
## VOLUMEN_DEPUESTO_SIN_CONTROL        NA        NA        NA
##                              VOLUMEN_DEPUESTO_SIN_CONTROL
## anio                                                   NA
## basura                                                 NA
## rellenos                                               NA
## VOLUMEN_DEPUESTO_SIN_CONTROL                            1

pairs(basura)

sd(basura$basura)

## [1] 3659.721

¿Es posible predecir la probabilidad de generación de basura?

Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?

Distribución de frecuencia

# TAbla de distribución de frecuencia
library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

dist <- fdt(basura$basura, breaks="Sturges")
dist

##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00

#histograma de frecuencia absoluta
plot(dist,type="fh")

Medidas de tendencia central y de dispersión

summary(basura$basura)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063

sd(basura$basura)

## [1] 3659.721

boxplot(basura$basura)

Apararentemente según los análisis anteriores parecería que los datos no son normales dado que su tendencia no está alineada a la media

¿Cómo podemos saber si los datos son normales o no?

Para esto usaremos la prueba de normalidad de Shapiro-Wilk

shapiro.test(basura$basura)

## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Analizando el valor de p < 0.05, concluimos que los datos no son normales.

Si los datos no son normales, ¿que resultados tendríamos si usamos la distribución normal para predecir probabilidad?

Para poder calcular probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:

pnorm(45000, mean= 34153, sd=3659.721, lower.tail = TRUE)

## [1] 0.9984811

Asignación:

¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?

El test del Shapiro-Wilk dio que $ W = 0.92441 $ y $ p-value = 0.1753 $ esto quiere decir que no es normar su comportamiento de los datos esto nos quiere decir que no es el analisis mas correcto que se puede aplicar probabilidad.

¿Que tantos de estos residuos no tienen control? es decir, no llegan a rellenos

Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

basura$VOLUMEN_DEPUESTO_SIN_CONTROL[3:17]

##  [1] 16655.12 12945.92 13286.45 13096.47 12141.93 12182.37 10954.80 11401.84
##  [9] 11344.00 11423.40 10971.30 10880.00 10725.00 10123.40  9519.40

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor

dist <- fdt(basura$VOLUMEN_DEPUESTO_SIN_CONTROL, breaks="Sturges")
plot(dist,type="cfh")

summary(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    9519   10917   11402   11843   12564   16655       2

El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.

U2A2

Francisco

30/10/2020

Unidad 2, caso de estudio 1 “problemática de la basura en México”, aplicando la probabilidad.