U1A14

HectorZapata

21/10/2020

  • Importar y extraer datos, paquetes
library(pacman)
p_load("readr", "DT", "prettydoc", "fdth", "modeest")
sonora <- read_csv("sonora3.csv")
## Parsed with column specification:
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
datatable(sonora)
enTrabajos <- sonora$workplaces_percent_change_from_baseline

Distribuciones

Distribuciones de frecuencia

Medidas de tendencia

Aqui podemos ver que la media se encuantra en

summary(enTrabajos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -71.00  -41.00  -34.00  -28.48  -13.00   11.00
boxplot(enTrabajos)

mfv(enTrabajos)
## [1] -40

Medidas de dispersión

¿Que esta pasando? si observamos detenidamente la grafica podeos ver que la poblacion de divide en 2 secciones, los que pueden trabajar en casa y los que no, y la pregunta aqui es….¿esto nos dice algo? esto nos dice que el de la poblacion que esta saliendo a trabajar tiene mas posibilidades de ser conagiado y por ende que sigan creciendo los indices de contagio.

sd(enTrabajos)
## [1] 18.71742
var(enTrabajos)
## [1] 350.3417
plot(enTrabajos)

Tabla de distribuciones de frecuencia

dist <- fdt(enTrabajos, breaks = "Sturges")
dist
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-71.71,-62.508)  2 0.01  0.83   2   0.83
##  [-62.508,-53.306) 12 0.05  4.96  14   5.79
##  [-53.306,-44.103) 24 0.10  9.92  38  15.70
##  [-44.103,-34.901) 79 0.33 32.64 117  48.35
##  [-34.901,-25.699) 43 0.18 17.77 160  66.12
##  [-25.699,-16.497) 10 0.04  4.13 170  70.25
##  [-16.497,-7.2944) 31 0.13 12.81 201  83.06
##   [-7.2944,1.9078) 14 0.06  5.79 215  88.84
##     [1.9078,11.11) 27 0.11 11.16 242 100.00

Histogramas y políginos de distribución de frecuencia

plot(dist,type="fh")

plot(dist,type="rfh")

plot(dist,type="cfh")

plot(dist,type="fp")

plot(dist,type="rfp")

plot(dist,type="cfp")

Distribuciones de probabilidad

Frecuencia con la cual se repiten los valores del conjunto de datos

sort(enTrabajos)
##   [1] -71 -68 -62 -57 -57 -57 -57 -57 -56 -55 -55 -55 -55 -54 -53 -53 -53 -52
##  [19] -52 -52 -52 -51 -51 -50 -50 -50 -50 -50 -48 -48 -48 -48 -47 -47 -47 -46
##  [37] -45 -45 -44 -44 -44 -43 -43 -43 -43 -43 -43 -42 -42 -42 -42 -42 -42 -42
##  [55] -42 -42 -42 -41 -41 -41 -41 -41 -41 -40 -40 -40 -40 -40 -40 -40 -40 -40
##  [73] -40 -40 -40 -39 -39 -39 -39 -39 -39 -38 -38 -38 -38 -38 -38 -38 -38 -38
##  [91] -38 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -36 -36 -36 -36 -36 -36 -36
## [109] -36 -36 -35 -35 -35 -35 -35 -35 -35 -34 -34 -34 -34 -34 -34 -34 -34 -34
## [127] -34 -34 -33 -33 -33 -33 -33 -33 -33 -33 -33 -32 -32 -32 -32 -32 -32 -31
## [145] -31 -31 -30 -30 -30 -30 -29 -29 -29 -28 -28 -28 -27 -27 -26 -26 -24 -24
## [163] -23 -21 -20 -18 -17 -17 -17 -17 -16 -16 -15 -15 -15 -14 -14 -14 -14 -14
## [181] -13 -13 -12 -11 -11 -11 -11 -11 -10 -10 -10  -9  -9  -9  -8  -8  -8  -8
## [199]  -8  -8  -8  -7  -7  -6  -5  -5  -5  -5  -4  -4  -3  -2  -1   0   0   2
## [217]   2   3   3   3   4   4   4   5   5   5   5   5   6   6   6   6   6   7
## [235]   7   8   8   9  10  10  10  11
table(enTrabajos)
## enTrabajos
## -71 -68 -62 -57 -56 -55 -54 -53 -52 -51 -50 -48 -47 -46 -45 -44 -43 -42 -41 -40 
##   1   1   1   5   1   4   1   3   4   2   5   4   3   1   2   3   6  10   6  12 
## -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -24 -23 -21 -20 -18 -17 
##   6  10  10   9   7  11   9   6   3   4   3   3   2   2   2   1   1   1   1   4 
## -16 -15 -14 -13 -12 -11 -10  -9  -8  -7  -6  -5  -4  -3  -2  -1   0   2   3   4 
##   2   3   5   2   1   5   3   3   7   2   1   4   2   1   1   1   2   2   3   3 
##   5   6   7   8   9  10  11 
##   5   5   2   2   1   3   1

¿Cómo sería si por ejemplo quisieramos saber la probabilidad de que en un día tengamos un valor de desfase -28.48 (moda) si fuera esto con probabilidad clásica?

Distribución normal

R tiene módulos para analizar la probabilidad distibuida

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿Cómo podemos calcular la probabilidad de que tengamos un valor de 3 o menos utilizando la distribución normal?

Tenemos una media de: -28.48 y desviación estándar de: 18.71742

¿Cuál es la probabilidad de que \(X\) sea menor o igual a 3 o menos

pnorm(3, mean =  -28.48, sd=18.71742)
## [1] 0.9537016

Conclusión:

podemos decir que este es un probable cuantificable y por ende puede ser planteado así como lo hemos estado haciendo en este esté análisis, ahora podemos concluir que el grupo de personas que no se está quedando en casa y está saliendo a las afueras en busca de trabajo o por el mismo trabajo con personas que viven el día a día y si ese día no trabajan ese día no comen, esto es algo inevitable y lastimosamente es una gran parte que hace que los contagios aumenten.