Importar y extraer datos, paquetes

library(pacman)
p_load("prettydoc", "readr","knitr", "DT","modeest","fdth")
setwd("~/PYE1213")
sonora <- read_csv("Sonora3.csv")

## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )

datatable(sonora)

preservedc963a3980769d73

LugarTrabajo <- sonora$workplaces_percent_change_from_baseline

Distribuciones

Distribuciones de frecuencia

Medidas de tendencia

mean(LugarTrabajo)# Se puede ver que la media de trabajo esta muy por debajo del valor de referencia, esto seguramente sea debido a que las personas empezaron a trabajar desde casa, y ya no visitaban sus lugares de trabajo

## [1] -28.47521

median(LugarTrabajo) #Igualmente se puede ver que en un punto medio el valor en porcentaje esta muy por debajo del valor de referencia

## [1] -34

mfv(LugarTrabajo) # Se puede ver que la moda es -40%, esto significa que lo mas común fue que el porcentaje de personas en los lugares de trabajo estuviera mucho menos en estos, todo esto ocasionado por el covid-19.

## [1] -40

summary(LugarTrabajo) #Resumen de medias de tendencia,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -71.00  -41.00  -34.00  -28.48  -13.00   11.00

boxplot(LugarTrabajo) #Gráfica de caja y bigotes para representar los datos anteriormente mostrados

Medidas de dispersión

sd(LugarTrabajo)

## [1] 18.71742

var(LugarTrabajo)

## [1] 350.3417

plot(LugarTrabajo)

Se puede ver que se agrupa aproximada mente en dos grupos, son muchos los que tenían oportunidad de hacer home office, sin embargo, no todos pueden, ademas de que puede ver que hubo una baja de personas en los lugares de trabajo muy grande al principio, pero llega un punto donde empieza a subir, esto seguramente es así debido al paso del tiempo y la baja de restricciones ocurridas en sonora.

Tabla de distribucion de frecuencia

dist <- fdt(LugarTrabajo, breaks="Sturges")
dist

##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-71.71,-62.508)  2 0.01  0.83   2   0.83
##  [-62.508,-53.306) 12 0.05  4.96  14   5.79
##  [-53.306,-44.103) 24 0.10  9.92  38  15.70
##  [-44.103,-34.901) 79 0.33 32.64 117  48.35
##  [-34.901,-25.699) 43 0.18 17.77 160  66.12
##  [-25.699,-16.497) 10 0.04  4.13 170  70.25
##  [-16.497,-7.2944) 31 0.13 12.81 201  83.06
##   [-7.2944,1.9078) 14 0.06  5.79 215  88.84
##     [1.9078,11.11) 27 0.11 11.16 242 100.00

Histogramas y polígonos de distribución de frecuencia

plot(dist,type="fh")#Histograma de frecuencia, Se puede ver que lo mas frecuente esta en -44.10 y -34.90, esto significa que las personas fueron a los lugares de trabajo de manera un frecuentemente un -44.10%.

plot(dist,type="rfh")#Histograma de frecuencia relativa.

plot(dist,type="cfh")#Histograma de frecuencia acumulada, debido a que esto es acumulado se ve como esta en aumento hacia el valor de referencia.

plot(dist,type="fp")#Gráfica de polígonos, igual que el histograma de frecuencia, se puede ver que lo mas recuente esta en -44.10 y -34.90.

plot(dist,type="rfp")#Gráfica de polígonos relativa.

plot(dist,type="cfp")#Gráfica de polígonos acumulada.

Distribicion de probabilidad

sort(LugarTrabajo)

##   [1] -71 -68 -62 -57 -57 -57 -57 -57 -56 -55 -55 -55 -55 -54 -53 -53 -53 -52
##  [19] -52 -52 -52 -51 -51 -50 -50 -50 -50 -50 -48 -48 -48 -48 -47 -47 -47 -46
##  [37] -45 -45 -44 -44 -44 -43 -43 -43 -43 -43 -43 -42 -42 -42 -42 -42 -42 -42
##  [55] -42 -42 -42 -41 -41 -41 -41 -41 -41 -40 -40 -40 -40 -40 -40 -40 -40 -40
##  [73] -40 -40 -40 -39 -39 -39 -39 -39 -39 -38 -38 -38 -38 -38 -38 -38 -38 -38
##  [91] -38 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -36 -36 -36 -36 -36 -36 -36
## [109] -36 -36 -35 -35 -35 -35 -35 -35 -35 -34 -34 -34 -34 -34 -34 -34 -34 -34
## [127] -34 -34 -33 -33 -33 -33 -33 -33 -33 -33 -33 -32 -32 -32 -32 -32 -32 -31
## [145] -31 -31 -30 -30 -30 -30 -29 -29 -29 -28 -28 -28 -27 -27 -26 -26 -24 -24
## [163] -23 -21 -20 -18 -17 -17 -17 -17 -16 -16 -15 -15 -15 -14 -14 -14 -14 -14
## [181] -13 -13 -12 -11 -11 -11 -11 -11 -10 -10 -10  -9  -9  -9  -8  -8  -8  -8
## [199]  -8  -8  -8  -7  -7  -6  -5  -5  -5  -5  -4  -4  -3  -2  -1   0   0   2
## [217]   2   3   3   3   4   4   4   5   5   5   5   5   6   6   6   6   6   7
## [235]   7   8   8   9  10  10  10  11

Se puede ver como empieza en un valor muy por debajo del valor de referencia, pero a partir de ahí empieza a subir, esto es debido al paso del tiempo, y el eventual regreso de los trabajadores a sus lugares de trabajo

table(LugarTrabajo)

## LugarTrabajo
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40 
##   1   1   1   5   1   4   1   3   4   2   5   4   3   1   2   3   6  10   6  12 
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17 
##   6  10  10   9   7  11   9   6   3   4   3   3   2   2   2   1   1   1   1   4 
## -16 -15 -14 -13 -12 -11 -10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   2   3   4 
##   2   3   5   2   1   5   3   3   7   2   1   4   2   1   1   1   2   2   3   3 
##   5   6   7   8   9  10  11 
##   5   5   2   2   1   3   1

¿Cómo seria si por ejemplo quisieramos saber la probabilidad de que un día tengamos un valor de desfase -40 (moda) si fuera esto con probabilidad clásica?

P(A) = 1/31

Distribución normal

R Tiene módulos para analizar la probabilidad distribuida

\[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas(cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (Percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfio en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿Cómo podemos calcular la probabilidad de que tengamos un valor de -20 o meno utilizando la distribución normal?

Tenemos una media de: -28.47521 y desviación estándar de: 18.71742

¿Cuál es la probabilidad de que \(X\) sea menor o igual a -20 o menor?

pnorm(-20,mean=-28.47521,sd=18.71742)

## [1] 0.6746529