U2A6

VictorCarvajalRomán

21/10/2020

Distribuciones de probabilidad

Distribuciones de frecuencia I

Conociendo los datos

Los datos son tomados de la base de datos de movilidad de Google para el estado de Sonora, México desde el día 15 de febrero hasta el día 13 de octubre de 2020; en este primer apartado se procederá a importarlos, declaran una variable llamada “Encasa” que es porcentaje de desfase con respecto a la línea base de la gente en sus casas / residencias; y una variable llamada “Parques” que es porcentaje de desfase con respecto a la línea base de la gente en parques.

Laguna Náinari

setwd("~/PYE1112ITSON")

library(pacman)
p_load("readr","DT","tidyverse","prettydoc","fdth","modeest")
SonoraMobilityReport <- read_csv("SonoraMobilityReport.csv")
## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
Encasa <- SonoraMobilityReport$residential_percent_change_from_baseline

Parques <- SonoraMobilityReport$parks_percent_change_from_baseline


#Conocer los nombres de las columnas
names(SonoraMobilityReport)
##  [1] "country_region_code"                               
##  [2] "country_region"                                    
##  [3] "sub_region_1"                                      
##  [4] "sub_region_2"                                      
##  [5] "iso_3166_2_code"                                   
##  [6] "census_fips_code"                                  
##  [7] "date"                                              
##  [8] "retail_and_recreation_percent_change_from_baseline"
##  [9] "grocery_and_pharmacy_percent_change_from_baseline" 
## [10] "parks_percent_change_from_baseline"                
## [11] "transit_stations_percent_change_from_baseline"     
## [12] "workplaces_percent_change_from_baseline"           
## [13] "residential_percent_change_from_baseline"
glimpse(SonoraMobilityReport)
## Rows: 242
## Columns: 13
## $ country_region_code                                <chr> "MX", "MX", "MX"...
## $ country_region                                     <chr> "Mexico", "Mexic...
## $ sub_region_1                                       <chr> "Sonora", "Sonor...
## $ sub_region_2                                       <lgl> NA, NA, NA, NA, ...
## $ iso_3166_2_code                                    <chr> "MX-SON", "MX-SO...
## $ census_fips_code                                   <lgl> NA, NA, NA, NA, ...
## $ date                                               <chr> "15/02/2020", "1...
## $ retail_and_recreation_percent_change_from_baseline <dbl> 7, 6, 4, 3, 1, 1...
## $ grocery_and_pharmacy_percent_change_from_baseline  <dbl> 6, 6, 4, -1, -1,...
## $ parks_percent_change_from_baseline                 <dbl> 0, -1, 2, 5, 3, ...
## $ transit_stations_percent_change_from_baseline      <dbl> -7, -3, 3, 1, 1,...
## $ workplaces_percent_change_from_baseline            <dbl> 3, 2, 9, 8, 5, 4...
## $ residential_percent_change_from_baseline           <dbl> -1, 0, -1, -1, -...

En casa

#Resumen de tendencia central
summary(Encasa)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -2.00   10.00   14.00   13.14   18.00   28.00
mfv(Encasa)
## [1] 13
boxplot(Encasa)

#Resumen de dispersión
var(Encasa)
## [1] 44.58299
sd(Encasa)
## [1] 6.677049
plot(Encasa)

Análisis de tabla de distribución de frecuencias

dist <- fdt(Encasa, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [-2.02,1.3467) 27 0.11 11.16  27  11.16
##  [1.3467,4.7133)  3 0.01  1.24  30  12.40
##    [4.7133,8.08) 17 0.07  7.02  47  19.42
##    [8.08,11.447) 20 0.08  8.26  67  27.69
##  [11.447,14.813) 68 0.28 28.10 135  55.79
##   [14.813,18.18) 61 0.25 25.21 196  80.99
##   [18.18,21.547) 31 0.13 12.81 227  93.80
##  [21.547,24.913) 12 0.05  4.96 239  98.76
##   [24.913,28.28)  3 0.01  1.24 242 100.00

Histogramas y polígonos de frecuencias

#Histogramas
plot(dist, type="fh")

plot(dist, type="cfh")

plot(dist, type="rfh")

#Polígonos
plot(dist, type="fp")

plot(dist, type="cfp")

plot(dist, type="rfp")

Parques

#Resumen de tendencia central
summary(Parques)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -64.00  -40.75  -34.00  -31.49  -26.00   12.00
mfv(Parques)
## [1] -38
boxplot(Parques)

#Resumen de dispersión
var(Parques)
## [1] 268.4832
sd(Parques)
## [1] 16.38546
plot(Parques)

Análisis de tabla de distribución de frecuencias

dist2 <- fdt(Parques, breaks = "Sturges")
dist2
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-64.64,-56.111)  8 0.03  3.31   8   3.31
##  [-56.111,-47.582) 25 0.10 10.33  33  13.64
##  [-47.582,-39.053) 38 0.16 15.70  71  29.34
##  [-39.053,-30.524) 76 0.31 31.40 147  60.74
##  [-30.524,-21.996) 52 0.21 21.49 199  82.23
##  [-21.996,-13.467) 12 0.05  4.96 211  87.19
##  [-13.467,-4.9378)  3 0.01  1.24 214  88.43
##   [-4.9378,3.5911) 11 0.05  4.55 225  92.98
##     [3.5911,12.12) 17 0.07  7.02 242 100.00

Histogramas y polígonos de frecuencias

#Histogramas
plot(dist2, type="fh")

plot(dist2, type="cfh")

plot(dist2, type="rfh")

#Polígonos
plot(dist2, type="fp")

plot(dist2, type="cfp")

plot(dist2, type="rfp")

¿Cómo utilizamos este enfoque de distribuciones a probabilidad?

Primeramente analizamos esto desde un punto de vista de probabilidad clásica

  • En casa
#Análisis de frecuencia de valores
table(Encasa)
## Encasa
## -2 -1  0  1  2  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
##  4 18  3  2  2  1  3  6  5  3  6  9  5 21 24 23 10 11 17 23 11 12  8  6  3  3 
## 26 27 28 
##  1  1  1
mfv(Encasa)
## [1] 13

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número 13 (moda), se tendría que dividir este evento favorable (1) entre el total de eventos (31), P(A) = 1/31

  • Parques
#Análisis de frecuencia de valores
table(Parques)
## Parques
## -64 -63 -60 -59 -57 -56 -55 -54 -53 -52 -51 -50 -49 -48 -47 -46 -45 -44 -43 -42 
##   1   2   1   2   2   2   1   2   5   2   4   3   4   2   4   3   5   3   1   6 
## -41 -40 -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -25 -24 -23 -22 
##   6  10   8  15  13   9   4   8   4   8   7   4   6   6   8  12   7   4   4   1 
## -21 -20 -18 -17 -14 -13  -9  -5  -4  -3  -2  -1   0   2   3   4   5   6   8  10 
##   8   1   1   1   1   1   1   1   1   1   1   1   1   2   4   2   4   6   2   1 
##  11  12 
##   1   1
mfv(Parques)
## [1] -38

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número -38 (moda), se tendría que dividir este evento favorable (1) entre el total de eventos (77), P(B) = 1/77

Funciones de distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

  • ¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de movilidad de personas en casa y en parques?

Distribución normal

  • En casa

Tenemos una media de: 13.14 y una desviación estándar de: 6.677049

¿Cuál es la probabilidad de que \(X\) sea menor o igual a 15 \(P(X\leq 15)\)

pnorm(15,mean=13.14,sd=6.677049) #Probabilidad acumulada
## [1] 0.6097111
#Probabilidad real
#1 - probabilidad acumulada
#= 1 - 0.6097 = 0.3903 = 39.03%
  • Parques

Tenemos una media de: -31.49 y una desviación estándar de: 16.38546

¿Cuál es la probabilidad de que \(X\) sea menor o igual a 3 \(P(X\leq 3)\)

pnorm(3,mean=-31.49,sd=16.38546) #Probabilidad acumulada
## [1] 0.9823506
#Probabilidad real
#1 - probabilidad acumulada
#= 1 - 0.9823 = 0.0177 = 1.77%

CONCLUSIÓN

  • La probabilidad clásica es una herramienta útil en universos donde los eventos son equiprobables. En la vida real, donde prácticamente todos los eventos se relacionan entre sí, su probabilidad de ocurrencia varía, y unos son más probables que otros, es por ello que para su estudio se utiliza probabilidad distribuida.

  • En este ejercicio se elaboró un análisis de movilidad de personas en Sonora en temporada de pandemia por COVID-19, y con ello se plantearon las fórmulas para obtener la probabilidad de que la gente asistiese a parques o se quedara en casa.