U2A6
Distribuciones de probabilidad
Distribuciones de frecuencia
Conociendo los datos
Los siguientes datos son procedentes de la base de datos de registros de movilidad de google para el estado de Sonora, desde la fecha del 15 de febrero del hasta al 13 de octubre del presente año. Se tomará en cuenta la variable que mide el como ha ido variando a lo largo del año movilidad de las personas con respecto al trabajo. Esta variable se denominará “EnTrabajo”.
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
sonora3 <- read_csv("sonora2.csv")## Parsed with column specification:
## cols(
## country_region_code = col_character(),
## country_region = col_character(),
## sub_region_1 = col_character(),
## sub_region_2 = col_logical(),
## metro_area = col_logical(),
## iso_3166_2_code = col_character(),
## census_fips_code = col_logical(),
## date = col_character(),
## retail_and_recreation_percent_change_from_baseline = col_double(),
## grocery_and_pharmacy_percent_change_from_baseline = col_double(),
## parks_percent_change_from_baseline = col_double(),
## transit_stations_percent_change_from_baseline = col_double(),
## workplaces_percent_change_from_baseline = col_double(),
## residential_percent_change_from_baseline = col_double()
## )
## [1] "country_region_code"
## [2] "country_region"
## [3] "sub_region_1"
## [4] "sub_region_2"
## [5] "metro_area"
## [6] "iso_3166_2_code"
## [7] "census_fips_code"
## [8] "date"
## [9] "retail_and_recreation_percent_change_from_baseline"
## [10] "grocery_and_pharmacy_percent_change_from_baseline"
## [11] "parks_percent_change_from_baseline"
## [12] "transit_stations_percent_change_from_baseline"
## [13] "workplaces_percent_change_from_baseline"
## [14] "residential_percent_change_from_baseline"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -71.00 -41.00 -34.00 -28.48 -13.00 11.00
## [1] -40
## [1] 350.3417
## [1] 18.71742
Análisis de tabla distribución de frecuencia
## Class limits f rf rf(%) cf cf(%)
## [-71.71,-62.508) 2 0.01 0.83 2 0.83
## [-62.508,-53.306) 12 0.05 4.96 14 5.79
## [-53.306,-44.103) 24 0.10 9.92 38 15.70
## [-44.103,-34.901) 79 0.33 32.64 117 48.35
## [-34.901,-25.699) 43 0.18 17.77 160 66.12
## [-25.699,-16.497) 10 0.04 4.13 170 70.25
## [-16.497,-7.2944) 31 0.13 12.81 201 83.06
## [-7.2944,1.9078) 14 0.06 5.79 215 88.84
## [1.9078,11.11) 27 0.11 11.16 242 100.00
¿Cómo utilizamos este enfoque de distribuciones a probabilidad?
Primeramente analizamos esto desde un punto de vista de probabilidad clásica
## EnTrabajo
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40
## 1 1 1 5 1 4 1 3 4 2 5 4 3 1 2 3 6 10 6 12
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17
## 6 10 10 9 7 11 9 6 3 4 3 3 2 2 2 1 1 1 1 4
## -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 2 3 4
## 2 3 5 2 1 5 3 3 7 2 1 4 2 1 1 1 2 2 3 3
## 5 6 7 8 9 10 11
## 5 5 2 2 1 3 1
## [1] -40
Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número -40 (moda), se tendría que dividir este evento favorable(1) entre el total de eventos (66), P(A) = 1/66
- Funciones de distribuciones de probabilidad
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
- ¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de movilidad de personas en el Trabajo?
Distribución normal
Tenemos una media de: -28.48 y desviación estándar de: 18.71742
¿Cuál es la probabilidad de que \(X\) sea mayor o igual a -40 de la siguiente forma:$ P(X-40) $ Para obtener la probabilidad real de que suceda el evento determinado, se resta a 1, que representa un evento completamente probable, el valor de la probabilidad acumulada.
## [1] 0.7308776
Para tener una poco más de contexto, se prueba con otros valores.
- La media:
## [1] 0.5
*La mediana:
## [1] 0.6159696
- Valores arbitrarios:
## [1] 0.4262525
## [1] 0.2357056
Como se observa, la probabilidad acumulada dice que tan posible es que un suceso, en este caso un porcentaje, ocurra, pero también los anteriores, es decir, la probabilidad de que ocurra un -40 o algún número mayor es más alta a que otro número mayor se dé (para este conjunto de datos se maneja de dicha forma puesto que la mayoría de datos son negativos y estos comienzan con valores positivos). Esto se comprueba al ver que la probabilidad de obtener un número mayor o igual a -40 es mayor a la de uno mayor o igual a -20. También es importante notar como al llegar a la media, la probabilidad de que ocurra ese suceso es del 50%, esto es debido a que, por definición, la media de un conjunto de datos se encuentra exactamente a la mitad.