U2A6

Jorge Valenzuela Parra

22/10/2020

Distribuciones de probabilidad

Distribuciones de probabilidad

Distribuciones de frecuencia

Conociendo los datos

Empleos Los datos son tomados de la base de datos de movilidad de google para el estado de sonora desde el día 15 de Febrero hasta el día 13 de Octubre, en este primer apartado se procedera a importarlos, declaran una variable llamada “trabajo” que es porcentaje de desfase con respecto a la linea base, de la gente en sus trabajos.

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
setwd("~/PyE3")
sonora3 <- read_csv("son.csv")

## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )

trabajo <- sonora3$workplaces_percent_change_from_baseline

#conocer los nombres de las columnas
names(sonora3)

##  [1] "country_region_code"                               
##  [2] "country_region"                                    
##  [3] "sub_region_1"                                      
##  [4] "sub_region_2"                                      
##  [5] "iso_3166_2_code"                                   
##  [6] "census_fips_code"                                  
##  [7] "date"                                              
##  [8] "retail_and_recreation_percent_change_from_baseline"
##  [9] "grocery_and_pharmacy_percent_change_from_baseline" 
## [10] "parks_percent_change_from_baseline"                
## [11] "transit_stations_percent_change_from_baseline"     
## [12] "workplaces_percent_change_from_baseline"           
## [13] "residential_percent_change_from_baseline"

#glimpse(sonora3)

#Resumen de tendencia central
summary(trabajo)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -71.00  -41.00  -34.00  -28.49  -13.00   11.00

boxplot(trabajo)

mean(trabajo)

## [1] -28.4898

median(trabajo)

## [1] -34

mfv(trabajo)

## [1] -40

En promedio la gente ha estado en sus trabajos un 28% menos, y hubo más registros de días con un -40% de personas en los trabajos, probablemente en las fechas de semaforo rojo y cuarentena más estricta.

#Resumen de dispersión
var(trabajo)

## [1] 346.1362

sd(trabajo)

## [1] 18.60474

plot(trabajo)

Análisis de tabla distribución de frecuencia

dist <- fdt(trabajo, breaks = "Sturges")
dist

##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-71.71,-62.508)  2 0.01  0.82   2   0.82
##  [-62.508,-53.306) 12 0.05  4.90  14   5.71
##  [-53.306,-44.103) 24 0.10  9.80  38  15.51
##  [-44.103,-34.901) 79 0.32 32.24 117  47.76
##  [-34.901,-25.699) 46 0.19 18.78 163  66.53
##  [-25.699,-16.497) 10 0.04  4.08 173  70.61
##  [-16.497,-7.2944) 31 0.13 12.65 204  83.27
##   [-7.2944,1.9078) 14 0.06  5.71 218  88.98
##     [1.9078,11.11) 27 0.11 11.02 245 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh")

plot(dist, type="cfh")

plot(dist, type="rfh")

plot(dist, type="fp")

plot(dist, type="cfp")

plot(dist, type="rfp")

¿Cómo utilizamos este enfoque de distribuciones a probabilidad?

Primeramente analizamos esto desde un punto de vista de probabilidad clásica

#análisis de frecuencia de valores
table(trabajo)

## trabajo
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40 
##   1   1   1   5   1   4   1   3   4   2   5   4   3   1   2   3   6  10   6  12 
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17 
##   6  10  10   9   7  11   9   7   4   4   3   3   2   3   2   1   1   1   1   4 
## -16 -15 -14 -13 -12 -11 -10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   2   3   4 
##   2   3   5   2   1   5   3   3   7   2   1   4   2   1   1   1   2   2   3   3 
##   5   6   7   8   9  10  11 
##   5   5   2   2   1   3   1

mfv(trabajo)

## [1] -40

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número -40 (moda), se tendría que dividir este evento favorable(1) entre el total de eventos (31), P(A) = 1/67

Funciones de distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de movilidad de personas en trabajos?

Distribución normal

Tenemos una media de: -28.4898 y desviación estándar de: 18.60474

¿Cuál es la probabilidad de que $X$ sea menor o igual a -44.10 $ P(X15) $ Este fue el rango de frecuencias en el que empezó a subir la distribución en el histograma.

pnorm (-44.10, mean=-28.4898, sd=18.60474)

## [1] 0.2007222

Redacción personal

Es dificil decir que los datos representan al 100% lo que está sucediendo en el estado, mas sin embargo es muy acertado, pues sí ha habido una baja muy grande en todo tipo de empleos. Nos dice en este caso que existe un 20% de probabilidad de que el siguiente dato registrado sea con la baja de los empleos menor de -44.10%, cosa que el día de mañana es muy improbable que suceda con el semaforo amarillo y con más establecimientos abiertos y eventos sociales de todo tipo sucediendo, pero que podría elevarse esta probabilidad con una segunda oleada de casos de COVID si cambia el semaforo a rojo, pues de nuevo establecimientos cerrarían y empleos se reducirían.