U2A2

HectorZapta

1/11/2020

Unidad 2, caso de estudio 1 “problemática de la basura en México”, aplicando la probabilidad.

  • Importar datos y paquetes
library(readr)
library(DT)
basura <- read_csv("basura.csv")
## Parsed with column specification:
## cols(
##   anio = col_double(),
##   basura = col_double(),
##   rellenos = col_double()
## )
datatable(basura)
  • Al ver los datos en una gráfica podemos saber si la cantidad de rellenos corresponde a la cantidad de basura generada.
plot(basura$basura)

plot(basura$rellenos)

plot(basura$anio)

  • Análisis de correlación con matriz de diagramas de dispersión y coeficiente de correlación de pearson
cor(basura)
##               anio    basura  rellenos
## anio     1.0000000 0.9495559 0.9435149
## basura   0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
pairs(basura)

sd(basura$basura)
## [1] 3659.721

¿Es posible predecir la probabilidad de generación de basura?

Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?

  • Distribución de frecuencia
# TAbla de distribución de frecuencia
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
dist <- fdt(basura$basura, breaks="Sturges")
dist
##           Class limits f   rf rf(%) cf  cf(%)
##  [28979.696,31061.934) 5 0.29 29.41  5  29.41
##  [31061.934,33144.172) 4 0.24 23.53  9  52.94
##   [33144.172,35226.41) 1 0.06  5.88 10  58.82
##   [35226.41,37308.649) 3 0.18 17.65 13  76.47
##  [37308.649,39390.887) 2 0.12 11.76 15  88.24
##  [39390.887,41473.125) 2 0.12 11.76 17 100.00
#histograma de frecuencia absoluta
plot(dist,type="fh")

  • Medidas de tendencia central y de dispersión
summary(basura$basura)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29272   30952   32916   34153   36865   41063
sd(basura$basura)
## [1] 3659.721
boxplot(basura$basura)

Apararentemente según los análisis anteriores parecería que los datos no son normales dado que su tendencia no está alineada a la media

¿Cómo podemos saber si los datos son normales o no?

Para esto usaremos la prueba de normalidad de Shapiro-Wilk

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Analizando el valor de p < 0.05, concluimos que los datos no son normales.

Si los datos no son normales, ¿que resultados tendríamos si usamos la distribución normal para predecir probabilidad?

Para poder calcular probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:

pnorm(45000, mean= 34153, sd=3659.721, lower.tail = TRUE)
## [1] 0.9984811

Asignación:

  • ¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?

  • ¿Que tantos de estos residuos no tienen control? es decir, no llegan a rellenos

Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos

Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor

El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.

¿Es la distribución normal la mejor manera de predecir probabilidad para estos datos?

¿Los datos son normales?

shapiro.test(basura$basura)
## 
##  Shapiro-Wilk normality test
## 
## data:  basura$basura
## W = 0.92441, p-value = 0.1753

Dado que el valor de p no es representativo, entonces la distribución de valores no es normal

¿Que distribución se ajusta mejor a estos datos?

Primero se probará un ajuste con distribución exponencial, dado que se tiene la premisa de que la generación de basura responde al incremento poblacional y este asu vez se comporta de manera exponencial

¿Que distribuciones existen?

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución \(\chi^2\) chisq Distribución F

¿Que prefijos se usan en estas distribuciones para hacer cálculos?

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

¿Como funciona la distribución exponencial?

  • Problema acerca de la distribución exponencial

Suponga que el tiempo medio de atención en la caja de un supermercado es de 3 minutos. Encuentre la probabilidad de que un cliente al azar sea atendido en menos de 2 minutos.

Para solucionar este problema debemos considerar que R asume la siguiente forma de la distribución exponencial:

$ f(x)=e^{-x},; x0,;>0 $

Luego, con λ=3 tenemos que:

pexp(2, rate=3)
## [1] 0.9975212

Cual sería la probabilidad de demorar entre 5 y 6 minutos P(X<=6)-P(X<=5)

pexp(6, rate=3) - pexp(5,rate=3)
## [1] 2.906723e-07

¿Cual es la curva función de densidad de esta probabilidad exponencial?

curve(dexp(x, rate=3), xlim=c(0,10), xlab="valores de x", y= "Densidad de probabilidad")

Ahora que conocemos esta premisa, responda lo siguiente:

¿Que probabilidad hay de que la generación de basura se genere al doble?

pexp((41062.5*2), rate =32916)
## [1] 1
pexp((41062.5*2), rate =1/32916)
## [1] 0.9175025

Conclusión

podemos observar que nos arroja un total de 91% de posibilidad de que aumente el nivel de basura y la verdad eso es preocupante, estamos trabajando con datos hasta un límite del año 2011, con este análisis aprendimos a darle la vuelta a un problema al observar que los datos no son normales la distribución normal no es la más óptima para este problema por lo que optamos por la distribución exponencial pero…..es el único que cumple con este problema?, la verdad es que no uno de los más usados con este tipo de problemas puede ser la distribución chi-cuadrada \(\chi^2\) ya que es una de las que más se ajustan a los datos.

El objetivo de este ejercicio fue entender cómo, cuándo y porque del utilizar un tipo de distribución y las ventajas que te da uno sobre del otro.