IMPORTAR DATOS Y EXTRAERDATOS, PAQUETES

library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
setwd("~/Tareas uni/Probabilidad y estadistica")
Sonora <- read_csv("Sonora3.csv")
## 
## -- Column specification --------------------------------------------------------------------------
## cols(
##   country_region_code = col_character(),
##   country_region = col_character(),
##   sub_region_1 = col_character(),
##   sub_region_2 = col_logical(),
##   metro_area = col_logical(),
##   iso_3166_2_code = col_character(),
##   census_fips_code = col_logical(),
##   date = col_character(),
##   retail_and_recreation_percent_change_from_baseline = col_double(),
##   grocery_and_pharmacy_percent_change_from_baseline = col_double(),
##   parks_percent_change_from_baseline = col_double(),
##   transit_stations_percent_change_from_baseline = col_double(),
##   workplaces_percent_change_from_baseline = col_double(),
##   residential_percent_change_from_baseline = col_double()
## )
datatable(Sonora)
EnCasa <- Sonora$residential_percent_change_from_baseline

#Distribuciones

#Distribucio de frecuencias

###Medidas de tendencia (moda,media,mediana)

summary(EnCasa)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   -2.00   10.00   14.00   13.14   18.00   28.00
boxplot(EnCasa)

mfv(EnCasa)
## [1] 13

###Medidas de dispercion

sd(EnCasa)
## [1] 6.677049
var(EnCasa)
## [1] 44.58299
plot(EnCasa)

##Tabla de distribuciones de frecuencia

dist <- fdt(EnCasa, breaks = "Sturges")
dist
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [-2.02,1.3467) 27 0.11 11.16  27  11.16
##  [1.3467,4.7133)  3 0.01  1.24  30  12.40
##    [4.7133,8.08) 17 0.07  7.02  47  19.42
##    [8.08,11.447) 20 0.08  8.26  67  27.69
##  [11.447,14.813) 68 0.28 28.10 135  55.79
##   [14.813,18.18) 61 0.25 25.21 196  80.99
##   [18.18,21.547) 31 0.13 12.81 227  93.80
##  [21.547,24.913) 12 0.05  4.96 239  98.76
##   [24.913,28.28)  3 0.01  1.24 242 100.00

###Histograma y poligonos de distribucion de frecuencia

plot(dist,type = "fh")

plot(dist,type = "rfh")

plot(dist,type = "cfh")

plot(dist,type = "fp")

plot(dist,type = "rfp")

plot(dist,type = "cfp")

##Distribucion de probabilidad

frecuencia con la cual se repiten los valores del conjunto

sort(EnCasa)
##   [1] -2 -2 -2 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  0  0  0
##  [26]  1  1  2  2  4  5  5  5  6  6  6  6  6  6  7  7  7  7  7  8  8  8  9  9  9
##  [51]  9  9  9 10 10 10 10 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 12 12 12
##  [76] 12 12 12 12 12 12 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13
## [101] 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 14 14 14
## [126] 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16
## [151] 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 18 18
## [176] 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19
## [201] 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 21 21 21 21 21 21
## [226] 21 21 22 22 22 22 22 22 23 23 23 24 24 24 26 27 28
table(EnCasa)
## EnCasa
## -2 -1  0  1  2  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 
##  4 18  3  2  2  1  3  6  5  3  6  9  5 21 24 23 10 11 17 23 11 12  8  6  3  3 
## 26 27 28 
##  1  1  1

¿Como seria si por ejemplo quisieramos saber la probabilidad de que en un dia tengamos un valor de desfase 13(moda) si fueras esto con probabilidad clasica?

p(A)=1/31

###Distribucion normal

R tiene modulos para anializar la probabilidad distribuida

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿Como podemos calcular la probabilidad de que tengamos un valir de 13 o menos utilizando la distribucion normal?

Media ——–> 13.14 Desviacion estandar ——–> 6.67 Moda ——–> 13

¿Cual es la probabilidad de que \(X\) sea menos o igual a 15 o menos

pnorm(15,mean = 13.14, sd=6.67)
## [1] 0.6098241

#Tarea Hacer los mismo pero con diferentes datos de salida de covid en sonora

Primero que todo obtendremos nuevamente la tabla de donde obtendremos los datos, veremos en la tabla los diferentes formas de representar los porcentajes de salida de la gente, los cuales no enfocaremos en los de parques veremos cuantas personas salen a los parques y no estan en sus casas

datatable(Sonora)
EnParques <- Sonora$parks_percent_change_from_baseline

*un analisis de regresion logistica entre el parque y los de que se quedan en casa

colores <- NULL
colores[Sonora$residential_percent_change_from_baseline >= -1] <- "green"
colores[Sonora$parks_percent_change_from_baseline >= 0] <- "red"
plot(Sonora$residential_percent_change_from_baseline,Sonora$parks_percent_change_from_baseline, xlab = "Porcentaje de habitantes en casa", ylab = "Porcentaje de habitantes en Parques", pch=21, bg=colores)

#Para poner anotacion en la graficas un cuadrito con datos se muestran abajo a la izquierda 
legend("bottomleft", c("% Casa", "% Parques"),pch =21, col=c("green","red") )

Lo que se peude ver en esta grafica que no mucha gente se enfoco en ir a parques se enfoco mas estar en casa me sorprendio pense que estaria mas gente en los parques Sorprendido

Vamos a hacer una regresion logistica

reg <- glm( residential_percent_change_from_baseline ~ parks_percent_change_from_baseline, data = Sonora)
summary(reg)
## 
## Call:
## glm(formula = residential_percent_change_from_baseline ~ parks_percent_change_from_baseline, 
##     data = Sonora)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -12.236   -3.236    1.360    3.114    8.669  
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                         3.13942    0.58505   5.366 1.89e-07 ***
## parks_percent_change_from_baseline -0.31749    0.01649 -19.254  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 17.5932)
## 
##     Null deviance: 10744.5  on 241  degrees of freedom
## Residual deviance:  4222.4  on 240  degrees of freedom
## AIC: 1384.7
## 
## Number of Fisher Scoring iterations: 2

#Distribucio de frecuencias

###Medidas de tendencia (moda,media,mediana)

summary(EnParques)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -64.00  -40.75  -34.00  -31.49  -26.00   12.00
boxplot(EnParques)

mfv(EnParques)
## [1] -38

###Medidas de dispercion

sd(EnParques)
## [1] 16.38546
var(EnParques)
## [1] 268.4832
plot(EnParques)

##Tabla de distribuciones de frecuencia

distribu <- fdt(EnParques, breaks = "Sturges")
distribu
##       Class limits  f   rf rf(%)  cf  cf(%)
##   [-64.64,-56.111)  8 0.03  3.31   8   3.31
##  [-56.111,-47.582) 25 0.10 10.33  33  13.64
##  [-47.582,-39.053) 38 0.16 15.70  71  29.34
##  [-39.053,-30.524) 76 0.31 31.40 147  60.74
##  [-30.524,-21.996) 52 0.21 21.49 199  82.23
##  [-21.996,-13.467) 12 0.05  4.96 211  87.19
##  [-13.467,-4.9378)  3 0.01  1.24 214  88.43
##   [-4.9378,3.5911) 11 0.05  4.55 225  92.98
##     [3.5911,12.12) 17 0.07  7.02 242 100.00

###Histograma y poligonos de distribucion de frecuencia

plot(distribu,type = "fh")

plot(distribu,type = "rfh")

plot(distribu,type = "cfh")

plot(distribu,type = "fp")

plot(distribu,type = "rfp")

plot(distribu,type = "cfp")

##Distribucion de probabilidad

frecuencia con la cual se repiten los valores del conjunto

sort(EnParques)
##   [1] -64 -63 -63 -60 -59 -59 -57 -57 -56 -56 -55 -54 -54 -53 -53 -53 -53 -53
##  [19] -52 -52 -51 -51 -51 -51 -50 -50 -50 -49 -49 -49 -49 -48 -48 -47 -47 -47
##  [37] -47 -46 -46 -46 -45 -45 -45 -45 -45 -44 -44 -44 -43 -42 -42 -42 -42 -42
##  [55] -42 -41 -41 -41 -41 -41 -41 -40 -40 -40 -40 -40 -40 -40 -40 -40 -40 -39
##  [73] -39 -39 -39 -39 -39 -39 -39 -38 -38 -38 -38 -38 -38 -38 -38 -38 -38 -38
##  [91] -38 -38 -38 -38 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -36
## [109] -36 -36 -36 -36 -36 -36 -36 -36 -35 -35 -35 -35 -34 -34 -34 -34 -34 -34
## [127] -34 -34 -33 -33 -33 -33 -32 -32 -32 -32 -32 -32 -32 -32 -31 -31 -31 -31
## [145] -31 -31 -31 -30 -30 -30 -30 -29 -29 -29 -29 -29 -29 -28 -28 -28 -28 -28
## [163] -28 -27 -27 -27 -27 -27 -27 -27 -27 -26 -26 -26 -26 -26 -26 -26 -26 -26
## [181] -26 -26 -26 -25 -25 -25 -25 -25 -25 -25 -24 -24 -24 -24 -23 -23 -23 -23
## [199] -22 -21 -21 -21 -21 -21 -21 -21 -21 -20 -18 -17 -14 -13  -9  -5  -4  -3
## [217]  -2  -1   0   2   2   3   3   3   3   4   4   5   5   5   5   6   6   6
## [235]   6   6   6   8   8  10  11  12
table(EnParques)
## EnParques
## -64 -63 -60 -59 -57 -56 -55 -54 -53 -52 -51 -50 -49 -48 -47 -46 -45 -44 -43 -42 
##   1   2   1   2   2   2   1   2   5   2   4   3   4   2   4   3   5   3   1   6 
## -41 -40 -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -25 -24 -23 -22 
##   6  10   8  15  13   9   4   8   4   8   7   4   6   6   8  12   7   4   4   1 
## -21 -20 -18 -17 -14 -13  -9  -5  -4  -3  -2  -1   0   2   3   4   5   6   8  10 
##   8   1   1   1   1   1   1   1   1   1   1   1   1   2   4   2   4   6   2   1 
##  11  12 
##   1   1

¿Como seria si por ejemplo quisieramos saber la probabilidad de que en un dia tengamos un valor de desfase 38(moda) si fueras esto con probabilidad clasica?

p(A)=1/13

###Distribucion normal

R tiene modulos para anializar la probabilidad distribuida

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

¿Como podemos calcular la probabilidad de que tengamos un valir de 38 o menos utilizando la distribucion normal?

Media ——–> 1.360 Desviacion estandar ——–> 16.38546 Moda ——–> 38

¿Cual es la probabilidad de que \(X\) sea menos o igual a 9 el numero eso uno de los que no tubo gran porcentaje de probabilidad porque es de los menos que tubo frecuencia

pnorm(9,mean = 1.360 , sd=16.38546 )
## [1] 0.6794878

Osea que el 36 tiene una probabilidad de 0.93 de salir pero si ponemos otro que tenga mas repeticiones veamos que sale

Probabilidad de que \(X\) sea menos o igual a 37 que es el segundo valor con mas frecuencia.

pnorm(36,mean = 1.360 , sd=16.38546 )
## [1] 0.9827453

tiene mucho mas probabilidad que el 26

¿Cual es la probabilidad de que \(X\) sea menos o igual a 38 (moda)

pnorm(38,mean = 1.360 , sd=16.38546 )
## [1] 0.9873283

Es que mas tiene probablididad ya que es la moda