U2A6

Isabel Valenzuela

21/10/2020

Distribuciones de probabilidad

Distribuciones de frecuencia

Conociendo los datos

Los datos son tomados de la base de datos de movilidad de google para el estado de Sonora desde el dia 15 de Febrero hasta el dia 13 de Octubre. En este primer apartado se procederá a importarlos, declaran una variable llamada “parques” que es porcentaje de desfase con respecto a la linea base, de la gente en los parques.

library(pacman)
p_load("readr","DT","prettydoc","fdth","modest")

setwd("~/Pobabilidad y estadistica 11-12 agodic")

sonora3 <- read_csv("sonora3.csv")
## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
parques <- sonora3$parks_percent_change_from_baseline


names(sonora3)
##  [1] "country_region_code"                               
##  [2] "country_region"                                    
##  [3] "sub_region_1"                                      
##  [4] "sub_region_2"                                      
##  [5] "metro_area"                                        
##  [6] "iso_3166_2_code"                                   
##  [7] "census_fips_code"                                  
##  [8] "date"                                              
##  [9] "retail_and_recreation_percent_change_from_baseline"
## [10] "grocery_and_pharmacy_percent_change_from_baseline" 
## [11] "parks_percent_change_from_baseline"                
## [12] "transit_stations_percent_change_from_baseline"     
## [13] "workplaces_percent_change_from_baseline"           
## [14] "residential_percent_change_from_baseline"
#glimpse(sonora3)
#Resumen de tendencia central
summary(parques)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -64.00  -40.75  -34.00  -31.49  -26.00   12.00
boxplot(parques)

mfv(parques)
## [1] -38
#Resumen de dispersion
var(parques)
## [1] 268.4832
sd(parques)
## [1] 16.38546
plot(parques)

Análisis de distribución de frecuenca

dist <- fdt(parques, breaks = "Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-64.64,-56.111)  8 0.03  3.31   8   3.31
##  [-56.111,-47.582) 25 0.10 10.33  33  13.64
##  [-47.582,-39.053) 38 0.16 15.70  71  29.34
##  [-39.053,-30.524) 76 0.31 31.40 147  60.74
##  [-30.524,-21.996) 52 0.21 21.49 199  82.23
##  [-21.996,-13.467) 12 0.05  4.96 211  87.19
##  [-13.467,-4.9378)  3 0.01  1.24 214  88.43
##   [-4.9378,3.5911) 11 0.05  4.55 225  92.98
##     [3.5911,12.12) 17 0.07  7.02 242 100.00

Histogramas y polígonos de frecuencia

plot(dist, type = "fh")

plot(dist, type = "cfh")

plot(dist, type = "rfh")

plot(dist, type = "fp")

plot(dist, type = "cfp")

plot(dist, type = "rfp")

¿Cómo utilizamos este enfoque de distribuciones a probabilidad?

Primeramente analizamos desde un punto de vista de probabilidad clásica.

#análisis de frecuencia de valores
table(parques)
## parques
## -64 -63 -60 -59 -57 -56 -55 -54 -53 -52 -51 -50 -49 -48 -47 -46 -45 -44 -43 -42 
##   1   2   1   2   2   2   1   2   5   2   4   3   4   2   4   3   5   3   1   6 
## -41 -40 -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -25 -24 -23 -22 
##   6  10   8  15  13   9   4   8   4   8   7   4   6   6   8  12   7   4   4   1 
## -21 -20 -18 -17 -14 -13  -9  -5  -4  -3  -2  -1   0   2   3   4   5   6   8  10 
##   8   1   1   1   1   1   1   1   1   1   1   1   1   2   4   2   4   6   2   1 
##  11  12 
##   1   1
mfv(parques)
## [1] -38

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el numero -38 (moda), se tendría que dividir este evento favorable (1) entre el total de eventos (62), dando P(A)=1/62

  • Funciones de distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

  • ¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de parques?

Distribución normal

Tenemos una media de -31.49 y desviación estándar de 16.3854

¿Cuál es la probabilidad de que \(X\) sea menor o igual a -32 \[P(X\leq -32)\]

pnorm(-32, mean = -31.49, sd=16.3854)
## [1] 0.4875848

Conclusion

Se observa como a inicios de la cuarentena la gente casi no iba a parques, después empezó a aumentar y volverse a estabilizar. El comportamiento de la curva no se ve de manera normal, esto infiere en la manera de calcular los datos con distribución normal.