Distribuciones de probabilidad

Distribuciones de frecuencia

Conociendo los datos

Los siguientes datos son procedentes de la base de datos de registros de movilidad de google para el estado de Sonora, desde la fecha del 15 de febrero del hasta al 13 de octubre del presente año. Se tomará en cuenta la variable que mide el como ha ido variando a lo largo del año movilidad de las personas con respecto al trabajo. Esta variable se denominará “EnTrabajo”.

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
sonora3 <- read_csv("sonora2.csv")
## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
EnTrabajo <- sonora3$workplaces_percent_change_from_baseline
#conocer los nombres de las columnas
names(sonora3)
##  [1] "country_region_code"                               
##  [2] "country_region"                                    
##  [3] "sub_region_1"                                      
##  [4] "sub_region_2"                                      
##  [5] "metro_area"                                        
##  [6] "iso_3166_2_code"                                   
##  [7] "census_fips_code"                                  
##  [8] "date"                                              
##  [9] "retail_and_recreation_percent_change_from_baseline"
## [10] "grocery_and_pharmacy_percent_change_from_baseline" 
## [11] "parks_percent_change_from_baseline"                
## [12] "transit_stations_percent_change_from_baseline"     
## [13] "workplaces_percent_change_from_baseline"           
## [14] "residential_percent_change_from_baseline"
#glimpse(sonora3)
#Resumen de tendencia central
summary(EnTrabajo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -71.00  -41.00  -34.00  -28.48  -13.00   11.00
boxplot(EnTrabajo)

mfv(EnTrabajo)
## [1] -40
#Resumen de dispersión
var(EnTrabajo)
## [1] 350.3417
sd(EnTrabajo)
## [1] 18.71742
plot(EnTrabajo)

Análisis de tabla distribución de frecuencia

dist <- fdt(EnTrabajo, breaks = "Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-71.71,-62.508)  2 0.01  0.83   2   0.83
##  [-62.508,-53.306) 12 0.05  4.96  14   5.79
##  [-53.306,-44.103) 24 0.10  9.92  38  15.70
##  [-44.103,-34.901) 79 0.33 32.64 117  48.35
##  [-34.901,-25.699) 43 0.18 17.77 160  66.12
##  [-25.699,-16.497) 10 0.04  4.13 170  70.25
##  [-16.497,-7.2944) 31 0.13 12.81 201  83.06
##   [-7.2944,1.9078) 14 0.06  5.79 215  88.84
##     [1.9078,11.11) 27 0.11 11.16 242 100.00

Histogramas y polígonos de frecuencia de la movilidad con respecto al trabajo

plot(dist, type="fh")

plot(dist, type="cfh")

plot(dist, type="rfh")

plot(dist, type="fp")

plot(dist, type="cfp")

plot(dist, type="rfp")

¿Cómo utilizamos este enfoque de distribuciones a probabilidad?

Primeramente analizamos esto desde un punto de vista de probabilidad clásica

#análisis de frecuencia de valores
table(EnTrabajo)
## EnTrabajo
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40 
##   1   1   1   5   1   4   1   3   4   2   5   4   3   1   2   3   6  10   6  12 
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17 
##   6  10  10   9   7  11   9   6   3   4   3   3   2   2   2   1   1   1   1   4 
## -16 -15 -14 -13 -12 -11 -10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   2   3   4 
##   2   3   5   2   1   5   3   3   7   2   1   4   2   1   1   1   2   2   3   3 
##   5   6   7   8   9  10  11 
##   5   5   2   2   1   3   1
mfv(EnTrabajo)
## [1] -40

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número -40 (moda), se tendría que dividir este evento favorable(1) entre el total de eventos (66), P(A) = 1/66

  • Funciones de distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

  • ¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de movilidad de personas en el Trabajo?

Distribución normal

Tenemos una media de: -28.48 y desviación estándar de: 18.71742

¿Cuál es la probabilidad de que \(X\) sea mayor o igual a -40 de la siguiente forma:$ P(X-40) $ Para obtener la probabilidad real de que suceda el evento determinado, se resta a 1, que representa un evento completamente probable, el valor de la probabilidad acumulada.

preal <- 1 - pnorm (-40, mean=-28.48, sd=18.71742)
preal
## [1] 0.7308776

Para tener una poco más de contexto, se prueba con otros valores.

  • La media:
preal <- 1 - pnorm (-28.48, mean=-28.48, sd=18.71742)
preal
## [1] 0.5

*La mediana:

preal <- 1 - pnorm (-34, mean=-28.48, sd=18.71742)
preal
## [1] 0.6159696
  • Valores arbitrarios:
preal <- 1 - pnorm (-25, mean=-28.48, sd=18.71742)
preal
## [1] 0.4262525
preal <- 1 - pnorm (-15, mean=-28.48, sd=18.71742)
preal
## [1] 0.2357056

Como se observa, la probabilidad acumulada dice que tan posible es que un suceso, en este caso un porcentaje, ocurra, pero también los anteriores, es decir, la probabilidad de que ocurra un -40 o algún número mayor es más alta a que otro número mayor se dé (para este conjunto de datos se maneja de dicha forma puesto que la mayoría de datos son negativos y estos comienzan con valores positivos). Esto se comprueba al ver que la probabilidad de obtener un número mayor o igual a -40 es mayor a la de uno mayor o igual a -20. También es importante notar como al llegar a la media, la probabilidad de que ocurra ese suceso es del 50%, esto es debido a que, por definición, la media de un conjunto de datos se encuentra exactamente a la mitad.