library(readr)
library(DT)
basura <- read_csv("basura.csv")
## Parsed with column specification:
## cols(
## anio = col_double(),
## basura = col_double(),
## rellenos = col_double(),
## VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
datatable(basura)
plot(basura$basura)
plot(basura$rellenos)
plot(basura$anio)
plot(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)
cor(basura)
## anio basura rellenos
## anio 1.0000000 0.9495559 0.9435149
## basura 0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
## VOLUMEN_DEPUESTO_SIN_CONTROL NA NA NA
## VOLUMEN_DEPUESTO_SIN_CONTROL
## anio NA
## basura NA
## rellenos NA
## VOLUMEN_DEPUESTO_SIN_CONTROL 1
pairs(basura)
sd(basura$basura)
## [1] 3659.721
¿Es posible predecir la probabilidad de generación de basura?
Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?
# TAbla de distribución de frecuencia
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
dist <- fdt(basura$basura, breaks="Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [28979.696,31061.934) 5 0.29 29.41 5 29.41
## [31061.934,33144.172) 4 0.24 23.53 9 52.94
## [33144.172,35226.41) 1 0.06 5.88 10 58.82
## [35226.41,37308.649) 3 0.18 17.65 13 76.47
## [37308.649,39390.887) 2 0.12 11.76 15 88.24
## [39390.887,41473.125) 2 0.12 11.76 17 100.00
#histograma de frecuencia absoluta
plot(dist,type="fh")
summary(basura$basura)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 29272 30952 32916 34153 36865 41063
sd(basura$basura)
## [1] 3659.721
boxplot(basura$basura)
Apararentemente según los análisis anteriores parecería que los datos no son normales dado que su tendencia no está alineada a la media
¿Cómo podemos saber si los datos son normales o no?
Para esto usaremos la prueba de normalidad de Shapiro-Wilk
shapiro.test(basura$basura)
##
## Shapiro-Wilk normality test
##
## data: basura$basura
## W = 0.92441, p-value = 0.1753
Analizando el valor de p < 0.05, concluimos que los datos no son normales.
Si los datos no son normales, ¿que resultados tendríamos si usamos la distribución normal para predecir probabilidad?
Para poder calcular probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:
pnorm(45000, mean= 34153, sd=3659.721, lower.tail = TRUE)
## [1] 0.9984811
Asignación:
El test del Shapiro-Wilk dio que $ W = 0.92441 $ y $ p-value = 0.1753 $ esto quiere decir que no es normar su comportamiento de los datos esto nos quiere decir que no es el analisis mas correcto que se puede aplicar probabilidad.
Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos
basura$VOLUMEN_DEPUESTO_SIN_CONTROL[3:17]
## [1] 16655.12 12945.92 13286.45 13096.47 12141.93 12182.37 10954.80 11401.84
## [9] 11344.00 11423.40 10971.30 10880.00 10725.00 10123.40 9519.40
Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor
dist <- fdt(basura$VOLUMEN_DEPUESTO_SIN_CONTROL, breaks="Sturges")
plot(dist,type="cfh")
summary(basura$VOLUMEN_DEPUESTO_SIN_CONTROL)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 9519 10917 11402 11843 12564 16655 2
El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.