Unidad 2, caso de estudio 1 “problemática de la basura en México”, aplicando la probabilidad.
- Importar datos y paquetes
## Parsed with column specification:
## cols(
## anio = col_double(),
## basura = col_double(),
## rellenos = col_double()
## )
- Al ver los datos en una gráfica podemos saber si la cantidad de rellenos corresponde a la cantidad de basura generada.
- Análisis de correlación con matriz de diagramas de dispersión y coeficiente de correlación de pearson
## anio basura rellenos
## anio 1.0000000 0.9495559 0.9435149
## basura 0.9495559 1.0000000 0.9393043
## rellenos 0.9435149 0.9393043 1.0000000
## [1] 3659.721
¿Es posible predecir la probabilidad de generación de basura?
Primer paso sería conocer los datos, ¿Cómo son los datos? ¿Los datos son normales? ¿Se puede usar la distribución normal?
- Distribución de frecuencia
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
## Class limits f rf rf(%) cf cf(%)
## [28979.696,31061.934) 5 0.29 29.41 5 29.41
## [31061.934,33144.172) 4 0.24 23.53 9 52.94
## [33144.172,35226.41) 1 0.06 5.88 10 58.82
## [35226.41,37308.649) 3 0.18 17.65 13 76.47
## [37308.649,39390.887) 2 0.12 11.76 15 88.24
## [39390.887,41473.125) 2 0.12 11.76 17 100.00
- Medidas de tendencia central y de dispersión
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 29272 30952 32916 34153 36865 41063
## [1] 3659.721
Apararentemente según los análisis anteriores parecería que los datos no son normales dado que su tendencia no está alineada a la media
¿Cómo podemos saber si los datos son normales o no?
Para esto usaremos la prueba de normalidad de Shapiro-Wilk
##
## Shapiro-Wilk normality test
##
## data: basura$basura
## W = 0.92441, p-value = 0.1753
Analizando el valor de p < 0.05, concluimos que los datos no son normales.
Si los datos no son normales, ¿que resultados tendríamos si usamos la distribución normal para predecir probabilidad?
Para poder calcular probabilidad usando la distribución normal, utilizaremos la función de densidad de probabilidad:
## [1] 0.9984811
Asignación:
- ¿Es la distribución normal la mejor manera de estimar probabilidad en estos conjuntos de datos observando lo anterior?
Yo digo que no por que no existe una tendencia que se pueda seguir para obtener datos que realmente sean de confianza y de utilidad.
- ¿Que tantos de estos residuos no tienen control? es decir, no llegan a rellenos
Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos
## Parsed with column specification:
## cols(
## AÑO = col_double(),
## VOLUMEN_DEPUESTO_SIN_CONTROL = col_double()
## )
Análisis de correlación con matriz de diagramas de dispersión y coeficiente de correlación de pearson
## AÑO VOLUMEN_DEPUESTO_SIN_CONTROL
## AÑO 1.0000000 -0.8939533
## VOLUMEN_DEPUESTO_SIN_CONTROL -0.8939533 1.0000000
## [1] 1831.542
Medidas de dispersion.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8680 10841 11373 11646 12373 16655
## [1] 1831.542
Tablas de distribución de frecuencia.
## Class limits f rf rf(%) cf cf(%)
## [8592.8139,10238.585) 3 0.19 18.75 3 18.75
## [10238.585,11884.357) 7 0.44 43.75 10 62.50
## [11884.357,13530.128) 5 0.31 31.25 15 93.75
## [13530.128,15175.9) 0 0.00 0.00 15 93.75
## [15175.9,16821.671) 1 0.06 6.25 16 100.00
Prueba de Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: residuos$VOLUMEN_DEPUESTO_SIN_CONTROL
## W = 0.91562, p-value = 0.1434
Analizando el valor de p < 0.05, concluimos que los datos no son normales.
Función de densidad de probabilidad
## [1] 1
Analice estos datos y estime la probabilidad de producción utilizando primero la distribución normal y posteriormente otra distribución que se ajuste mejor
El objetivo de esto es analizar los resultados que se tienen cuando se usa la distribución normal comparada con otros tipos de distribuciones de probabilidad.
Para esto utilce los siguientes datos: https://datos.gob.mx/busca/dataset/indicadores-clave--residuos
Función de la curva de densidad de probabilidad exponencial
Conclusión
Esto indica un preocupante crecimiento exponencial de la generación de basura en el planeta por el incremento poblacional, esto deberia d generar conciencia tanto en nosotros como estudiantes como en la poblacion en general.
Tambien me queda claro que un analisis de distribución puede dar mucha claridad a los datos que a simple vista no dicen nada.