library(pacman)
p_load("readr", "DT", "prettydoc", "fdth", "modeest")
setwd("~/ProbabilidadYEstadistica")

sonora <- read_csv("sonora3.csv")
## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
datatable(sonora)
#EnCasa <- sonora$residential_percent_change_from_baseline
Trabajo <- sonora$workplaces_percent_change_from_baseline

Distribuciones

Distribuciones de frecuencia

Medidas de tendencia

summary(Trabajo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -71.00  -41.00  -34.00  -28.48  -13.00   11.00
boxplot(Trabajo)

#Moda
mfv(Trabajo)
## [1] -40

Podemos ver por la gráfica la media esta por el valor -30, esto se confirma al ver la media en el summary que da: -28.48, no se ven datos atipicos lo que nos dice que fueron dejando los trabajos gradualmente y con calma, durante la pandemia viendo que los datos llegaron a un -71% como maximo de que las personas dejaron de estar en lugares de trabajo

Medidas de dispersión

sd(Trabajo)
## [1] 18.71742
var(Trabajo)
## [1] 350.3417
plot(Trabajo)

#Las rectas que se ven son la division de clases sociales ya que se puede ver como un grupo esta quedandose en casa y otro que no se quedan tanto

Podemos ver que la gráfica se divide en dos lineas lo que nos dice que la población de los que trabajan estan divididas en los que pueden no estar en su area de trabajo y trabajar desde casa o los que perdieron su trabajo y los que por otras razones si tienen que ir a su lugar de trabajo

Tabla de distribuciones de frecuencia

dist <- fdt(Trabajo, breaks = "Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-71.71,-62.508)  2 0.01  0.83   2   0.83
##  [-62.508,-53.306) 12 0.05  4.96  14   5.79
##  [-53.306,-44.103) 24 0.10  9.92  38  15.70
##  [-44.103,-34.901) 79 0.33 32.64 117  48.35
##  [-34.901,-25.699) 43 0.18 17.77 160  66.12
##  [-25.699,-16.497) 10 0.04  4.13 170  70.25
##  [-16.497,-7.2944) 31 0.13 12.81 201  83.06
##   [-7.2944,1.9078) 14 0.06  5.79 215  88.84
##     [1.9078,11.11) 27 0.11 11.16 242 100.00

Podemos ver las diferentes frecuencias de las visitas a las zonas de trabajos, vemos que las visitas se hacen mas frecuentes en casi todos los porcetajes de frecuencias durante el periodo de porcentajes de [-44.103,-34.901)

Histogramas y polígonos de distribución de frecuencia

#histograma
plot(dist, type = "fh") # Absoluto

plot(dist, type = "rfh") # relativo

plot(dist, type = "cfh") # Aacumulado

#poligonos
plot(dist, type = "fp") # Absoluto

plot(dist, type = "rfp") # relativo

plot(dist, type = "cfp") # Aacumulado

Como se menciono anteriormente se ve como en el periodo de [-44.103,-34.901), se aumentan las visitas a sus lugares de trabajo y confimamos que de hecho que en el -71.71% hubo menos visitas que en los demas

Distribuciones de probabilidad

Frecuencia con la cual se repiten los valores del conjunto de datos

sort(Trabajo)
##   [1] -71 -68 -62 -57 -57 -57 -57 -57 -56 -55 -55 -55 -55 -54 -53 -53 -53 -52
##  [19] -52 -52 -52 -51 -51 -50 -50 -50 -50 -50 -48 -48 -48 -48 -47 -47 -47 -46
##  [37] -45 -45 -44 -44 -44 -43 -43 -43 -43 -43 -43 -42 -42 -42 -42 -42 -42 -42
##  [55] -42 -42 -42 -41 -41 -41 -41 -41 -41 -40 -40 -40 -40 -40 -40 -40 -40 -40
##  [73] -40 -40 -40 -39 -39 -39 -39 -39 -39 -38 -38 -38 -38 -38 -38 -38 -38 -38
##  [91] -38 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -36 -36 -36 -36 -36 -36 -36
## [109] -36 -36 -35 -35 -35 -35 -35 -35 -35 -34 -34 -34 -34 -34 -34 -34 -34 -34
## [127] -34 -34 -33 -33 -33 -33 -33 -33 -33 -33 -33 -32 -32 -32 -32 -32 -32 -31
## [145] -31 -31 -30 -30 -30 -30 -29 -29 -29 -28 -28 -28 -27 -27 -26 -26 -24 -24
## [163] -23 -21 -20 -18 -17 -17 -17 -17 -16 -16 -15 -15 -15 -14 -14 -14 -14 -14
## [181] -13 -13 -12 -11 -11 -11 -11 -11 -10 -10 -10  -9  -9  -9  -8  -8  -8  -8
## [199]  -8  -8  -8  -7  -7  -6  -5  -5  -5  -5  -4  -4  -3  -2  -1   0   0   2
## [217]   2   3   3   3   4   4   4   5   5   5   5   5   6   6   6   6   6   7
## [235]   7   8   8   9  10  10  10  11

De aqui podemos ver que el valor mas frecuente parece ser el -40, veremos si esto es real con la siguiente tabla

table(Trabajo)
## Trabajo
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40 
##   1   1   1   5   1   4   1   3   4   2   5   4   3   1   2   3   6  10   6  12 
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17 
##   6  10  10   9   7  11   9   6   3   4   3   3   2   2   2   1   1   1   1   4 
## -16 -15 -14 -13 -12 -11 -10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   2   3   4 
##   2   3   5   2   1   5   3   3   7   2   1   4   2   1   1   1   2   2   3   3 
##   5   6   7   8   9  10  11 
##   5   5   2   2   1   3   1

Confirmamos que de hecho el -40 es el valor que mas se repite siendo este el mas probable a salir

¿Cómo sería si por ejemplo quisieramos saber la probabilidad de que en un día tengamos un valor de desfase -30(moda) si fuera esto con probabilidad clasica?

P(A) = 1/67

Distribución normal

R tiene módulos para analizar la probabilidad distribuida

\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas(cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (Percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfio en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

¿Cómo podemos calcular la probabilidad de que tengamos un valor de -30 o menos utilizando la distribución normal?

Tenemos una media de: -28.48 y desviacón estandar de: 18.71742

¿cuál es la prbabilidad de que \(x\) sea menor o igual a -30 o menos?

# El 15 tiene probabilidad del 46.7% de salir
pnorm(-30, mean = -28.48, sd = 18.71742)
## [1] 0.4676384

El numero -30 tiene una probabilidad de salir del 46.7%

Conclusion:

En conclusion vemos como al inicio de la pandemia obviamente se dejaron de asisitir a los lugares de trabajo, cosa que no dura mucho pues muchas personas dependen de trabajos como abarrotes y demas que tienen que estar abiertos, ademas de las grandes empresasa que tienen que tener supermercados, servicios, etc. es por esto que se ve que las personas que no pueden faltar se separan de las que si pueden o perdieron el trabajo ya que lastimosamente esta situación si se produjo debido a la pandemia