Distribuciones de probabilidad

Distribuciones de frecuencia

Conociendo los datos

Los datos son tomados de la base de datos de movilidad de google para el estado de sonora desde el día 15 de Febrero hasta el día 13 de Octubre, en este primer apartado se procedera a importarlos, declaran una variable llamada “Parques” que es porcentaje de desfase con respecto a la linea base, de la gente en parques.

Parques

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
sonora2 <- read_csv("sonora2.csv")

## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )

Parques <- sonora2$parks_percent_change_from_baseline

#conocer los nombres de las columnas
names(sonora2)

##  [1] "country_region_code"                               
##  [2] "country_region"                                    
##  [3] "sub_region_1"                                      
##  [4] "sub_region_2"                                      
##  [5] "iso_3166_2_code"                                   
##  [6] "census_fips_code"                                  
##  [7] "date"                                              
##  [8] "retail_and_recreation_percent_change_from_baseline"
##  [9] "grocery_and_pharmacy_percent_change_from_baseline" 
## [10] "parks_percent_change_from_baseline"                
## [11] "transit_stations_percent_change_from_baseline"     
## [12] "workplaces_percent_change_from_baseline"           
## [13] "residential_percent_change_from_baseline"

#glimpse(sonora2)

#Resumen de tendencia central
summary(Parques)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -64.00  -40.75  -34.00  -31.49  -26.00   12.00

boxplot(Parques)

mfv(Parques)

## [1] -38

#Resumen de dispersión
var(Parques)

## [1] 268.4832

sd(Parques)

## [1] 16.38546

plot(Parques)

Análisis de tabla distribución de frecuencia

dist <- fdt(Parques, breaks = "Sturges")
dist

##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-64.64,-56.111)  8 0.03  3.31   8   3.31
##  [-56.111,-47.582) 25 0.10 10.33  33  13.64
##  [-47.582,-39.053) 38 0.16 15.70  71  29.34
##  [-39.053,-30.524) 76 0.31 31.40 147  60.74
##  [-30.524,-21.996) 52 0.21 21.49 199  82.23
##  [-21.996,-13.467) 12 0.05  4.96 211  87.19
##  [-13.467,-4.9378)  3 0.01  1.24 214  88.43
##   [-4.9378,3.5911) 11 0.05  4.55 225  92.98
##     [3.5911,12.12) 17 0.07  7.02 242 100.00

Histogramas y polígonos de frecuencia

plot(dist, type="fh")

plot(dist, type="cfh")

plot(dist, type="rfh")

plot(dist, type="fp")

plot(dist, type="cfp")

plot(dist, type="rfp")

¿Cómo utilizamos este enfoque de distribuciones a probabilidad?

Primeramente analizamos esto desde un punto de vista de probabilidad clásica

#análisis de frecuencia de valores
table(Parques)

## Parques
## -64 -63 -60 -59 -57 -56 -55 -54 -53 -52 -51 -50 -49 -48 -47 -46 -45 -44 -43 -42 
##   1   2   1   2   2   2   1   2   5   2   4   3   4   2   4   3   5   3   1   6 
## -41 -40 -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -25 -24 -23 -22 
##   6  10   8  15  13   9   4   8   4   8   7   4   6   6   8  12   7   4   4   1 
## -21 -20 -18 -17 -14 -13  -9  -5  -4  -3  -2  -1   0   2   3   4   5   6   8  10 
##   8   1   1   1   1   1   1   1   1   1   1   1   1   2   4   2   4   6   2   1 
##  11  12 
##   1   1

mfv(Parques)

## [1] -38

Si esto fuera probabilidad clásica y quisieramos saber cual es la probabilidad de que se presente el número -38 (moda), se tendría que dividir este evento favorable (1) entre el total de eventos (62), P(A) = 1/62

Funciones de distribuciones de probabilidad

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿De qué manera sirve esto para entender la probabilidad de que se presente un valor de movilidad de personas en parques?

Distribución normal

Tenemos una media de: -31.49 y desviación estándar de: 16.38546

¿Cuál es la probabilidad de que \(X\) sea menor o igual a -30 \(P(X\leq -30)\)

pnorm (-30, mean=-31.49, sd=16.38546)

## [1] 0.5362276

Conclusión

Existe un 53% de probabilidad de que las personas se mantengan en el porcentaje de -30% que sería lo ideal debido a que en 0 es cuando toda la gente visita parques, entonces se puede decir que las cosas se encuentran estables aún. Sin embargo, la tendencia va creciendo, esto quiere decir que si hay cada vez más gente visitando parques. Además, en la gráfica simple se aprecian dos lineas, de las cuales se puede decir que existen personas que no van absolutamente nada a parques y otras que si van de vez en cuando.

U2A6

Marijose González del Real

21/Oct/2020