IMPORTAR DATOS Y EXTRAERDATOS, PAQUETES
library(pacman)
p_load("readr","DT","prettydoc","fdth","modeest")
setwd("~/Tareas uni/Probabilidad y estadistica")
Sonora <- read_csv("Sonora3.csv")
##
## -- Column specification --------------------------------------------------------------------------
## cols(
## country_region_code = col_character(),
## country_region = col_character(),
## sub_region_1 = col_character(),
## sub_region_2 = col_logical(),
## metro_area = col_logical(),
## iso_3166_2_code = col_character(),
## census_fips_code = col_logical(),
## date = col_character(),
## retail_and_recreation_percent_change_from_baseline = col_double(),
## grocery_and_pharmacy_percent_change_from_baseline = col_double(),
## parks_percent_change_from_baseline = col_double(),
## transit_stations_percent_change_from_baseline = col_double(),
## workplaces_percent_change_from_baseline = col_double(),
## residential_percent_change_from_baseline = col_double()
## )
datatable(Sonora)
EnCasa <- Sonora$residential_percent_change_from_baseline
#Distribuciones
#Distribucio de frecuencias
###Medidas de tendencia (moda,media,mediana)
summary(EnCasa)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.00 10.00 14.00 13.14 18.00 28.00
boxplot(EnCasa)
mfv(EnCasa)
## [1] 13
###Medidas de dispercion
sd(EnCasa)
## [1] 6.677049
var(EnCasa)
## [1] 44.58299
plot(EnCasa)
##Tabla de distribuciones de frecuencia
dist <- fdt(EnCasa, breaks = "Sturges")
dist
## Class limits f rf rf(%) cf cf(%)
## [-2.02,1.3467) 27 0.11 11.16 27 11.16
## [1.3467,4.7133) 3 0.01 1.24 30 12.40
## [4.7133,8.08) 17 0.07 7.02 47 19.42
## [8.08,11.447) 20 0.08 8.26 67 27.69
## [11.447,14.813) 68 0.28 28.10 135 55.79
## [14.813,18.18) 61 0.25 25.21 196 80.99
## [18.18,21.547) 31 0.13 12.81 227 93.80
## [21.547,24.913) 12 0.05 4.96 239 98.76
## [24.913,28.28) 3 0.01 1.24 242 100.00
###Histograma y poligonos de distribucion de frecuencia
plot(dist,type = "fh")
plot(dist,type = "rfh")
plot(dist,type = "cfh")
plot(dist,type = "fp")
plot(dist,type = "rfp")
plot(dist,type = "cfp")
##Distribucion de probabilidad
frecuencia con la cual se repiten los valores del conjunto
sort(EnCasa)
## [1] -2 -2 -2 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0
## [26] 1 1 2 2 4 5 5 5 6 6 6 6 6 6 7 7 7 7 7 8 8 8 9 9 9
## [51] 9 9 9 10 10 10 10 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 12 12 12
## [76] 12 12 12 12 12 12 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13
## [101] 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 14 14 14
## [126] 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16
## [151] 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 18 18
## [176] 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19
## [201] 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 21 21 21 21 21 21
## [226] 21 21 22 22 22 22 22 22 23 23 23 24 24 24 26 27 28
table(EnCasa)
## EnCasa
## -2 -1 0 1 2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
## 4 18 3 2 2 1 3 6 5 3 6 9 5 21 24 23 10 11 17 23 11 12 8 6 3 3
## 26 27 28
## 1 1 1
¿Como seria si por ejemplo quisieramos saber la probabilidad de que en un dia tengamos un valor de desfase 13(moda) si fueras esto con probabilidad clasica?
p(A)=1/31
###Distribucion normal
R tiene modulos para anializar la probabilidad distribuida
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
¿Como podemos calcular la probabilidad de que tengamos un valir de 13 o menos utilizando la distribucion normal?
Media ——–> 13.14 Desviacion estandar ——–> 6.67 Moda ——–> 13
¿Cual es la probabilidad de que \(X\) sea menos o igual a 15 o menos
pnorm(15,mean = 13.14, sd=6.67)
## [1] 0.6098241
#Tarea Hacer los mismo pero con diferentes datos de salida de covid en sonora
Primero que todo obtendremos nuevamente la tabla de donde obtendremos los datos, veremos en la tabla los diferentes formas de representar los porcentajes de salida de la gente, los cuales no enfocaremos en los de parques veremos cuantas personas salen a los parques y no estan en sus casas
datatable(Sonora)
EnParques <- Sonora$parks_percent_change_from_baseline
*un analisis de regresion logistica entre el parque y los de que se quedan en casa
colores <- NULL
colores[Sonora$residential_percent_change_from_baseline >= -1] <- "green"
colores[Sonora$parks_percent_change_from_baseline >= 0] <- "red"
plot(Sonora$residential_percent_change_from_baseline,Sonora$parks_percent_change_from_baseline, xlab = "Porcentaje de habitantes en casa", ylab = "Porcentaje de habitantes en Parques", pch=21, bg=colores)
#Para poner anotacion en la graficas un cuadrito con datos se muestran abajo a la izquierda
legend("bottomleft", c("% Casa", "% Parques"),pch =21, col=c("green","red") )
Lo que se peude ver en esta grafica que no mucha gente se enfoco en ir a parques se enfoco mas estar en casa me sorprendio pense que estaria mas gente en los parques
Vamos a hacer una regresion logistica
reg <- glm( residential_percent_change_from_baseline ~ parks_percent_change_from_baseline, data = Sonora)
summary(reg)
##
## Call:
## glm(formula = residential_percent_change_from_baseline ~ parks_percent_change_from_baseline,
## data = Sonora)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -12.236 -3.236 1.360 3.114 8.669
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.13942 0.58505 5.366 1.89e-07 ***
## parks_percent_change_from_baseline -0.31749 0.01649 -19.254 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 17.5932)
##
## Null deviance: 10744.5 on 241 degrees of freedom
## Residual deviance: 4222.4 on 240 degrees of freedom
## AIC: 1384.7
##
## Number of Fisher Scoring iterations: 2
#Distribucio de frecuencias
###Medidas de tendencia (moda,media,mediana)
summary(EnParques)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -64.00 -40.75 -34.00 -31.49 -26.00 12.00
boxplot(EnParques)
mfv(EnParques)
## [1] -38
###Medidas de dispercion
sd(EnParques)
## [1] 16.38546
var(EnParques)
## [1] 268.4832
plot(EnParques)
##Tabla de distribuciones de frecuencia
distribu <- fdt(EnParques, breaks = "Sturges")
distribu
## Class limits f rf rf(%) cf cf(%)
## [-64.64,-56.111) 8 0.03 3.31 8 3.31
## [-56.111,-47.582) 25 0.10 10.33 33 13.64
## [-47.582,-39.053) 38 0.16 15.70 71 29.34
## [-39.053,-30.524) 76 0.31 31.40 147 60.74
## [-30.524,-21.996) 52 0.21 21.49 199 82.23
## [-21.996,-13.467) 12 0.05 4.96 211 87.19
## [-13.467,-4.9378) 3 0.01 1.24 214 88.43
## [-4.9378,3.5911) 11 0.05 4.55 225 92.98
## [3.5911,12.12) 17 0.07 7.02 242 100.00
###Histograma y poligonos de distribucion de frecuencia
plot(distribu,type = "fh")
plot(distribu,type = "rfh")
plot(distribu,type = "cfh")
plot(distribu,type = "fp")
plot(distribu,type = "rfp")
plot(distribu,type = "cfp")
##Distribucion de probabilidad
frecuencia con la cual se repiten los valores del conjunto
sort(EnParques)
## [1] -64 -63 -63 -60 -59 -59 -57 -57 -56 -56 -55 -54 -54 -53 -53 -53 -53 -53
## [19] -52 -52 -51 -51 -51 -51 -50 -50 -50 -49 -49 -49 -49 -48 -48 -47 -47 -47
## [37] -47 -46 -46 -46 -45 -45 -45 -45 -45 -44 -44 -44 -43 -42 -42 -42 -42 -42
## [55] -42 -41 -41 -41 -41 -41 -41 -40 -40 -40 -40 -40 -40 -40 -40 -40 -40 -39
## [73] -39 -39 -39 -39 -39 -39 -39 -38 -38 -38 -38 -38 -38 -38 -38 -38 -38 -38
## [91] -38 -38 -38 -38 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -37 -36
## [109] -36 -36 -36 -36 -36 -36 -36 -36 -35 -35 -35 -35 -34 -34 -34 -34 -34 -34
## [127] -34 -34 -33 -33 -33 -33 -32 -32 -32 -32 -32 -32 -32 -32 -31 -31 -31 -31
## [145] -31 -31 -31 -30 -30 -30 -30 -29 -29 -29 -29 -29 -29 -28 -28 -28 -28 -28
## [163] -28 -27 -27 -27 -27 -27 -27 -27 -27 -26 -26 -26 -26 -26 -26 -26 -26 -26
## [181] -26 -26 -26 -25 -25 -25 -25 -25 -25 -25 -24 -24 -24 -24 -23 -23 -23 -23
## [199] -22 -21 -21 -21 -21 -21 -21 -21 -21 -20 -18 -17 -14 -13 -9 -5 -4 -3
## [217] -2 -1 0 2 2 3 3 3 3 4 4 5 5 5 5 6 6 6
## [235] 6 6 6 8 8 10 11 12
table(EnParques)
## EnParques
## -64 -63 -60 -59 -57 -56 -55 -54 -53 -52 -51 -50 -49 -48 -47 -46 -45 -44 -43 -42
## 1 2 1 2 2 2 1 2 5 2 4 3 4 2 4 3 5 3 1 6
## -41 -40 -39 -38 -37 -36 -35 -34 -33 -32 -31 -30 -29 -28 -27 -26 -25 -24 -23 -22
## 6 10 8 15 13 9 4 8 4 8 7 4 6 6 8 12 7 4 4 1
## -21 -20 -18 -17 -14 -13 -9 -5 -4 -3 -2 -1 0 2 3 4 5 6 8 10
## 8 1 1 1 1 1 1 1 1 1 1 1 1 2 4 2 4 6 2 1
## 11 12
## 1 1
¿Como seria si por ejemplo quisieramos saber la probabilidad de que en un dia tengamos un valor de desfase 38(moda) si fueras esto con probabilidad clasica?
p(A)=1/13
###Distribucion normal
R tiene modulos para anializar la probabilidad distribuida
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
¿Como podemos calcular la probabilidad de que tengamos un valir de 38 o menos utilizando la distribucion normal?
Media ——–> 1.360 Desviacion estandar ——–> 16.38546 Moda ——–> 38
¿Cual es la probabilidad de que \(X\) sea menos o igual a 9 el numero eso uno de los que no tubo gran porcentaje de probabilidad porque es de los menos que tubo frecuencia
pnorm(9,mean = 1.360 , sd=16.38546 )
## [1] 0.6794878
Osea que el 36 tiene una probabilidad de 0.93 de salir pero si ponemos otro que tenga mas repeticiones veamos que sale
Probabilidad de que \(X\) sea menos o igual a 37 que es el segundo valor con mas frecuencia.
pnorm(36,mean = 1.360 , sd=16.38546 )
## [1] 0.9827453
tiene mucho mas probabilidad que el 26
¿Cual es la probabilidad de que \(X\) sea menos o igual a 38 (moda)
pnorm(38,mean = 1.360 , sd=16.38546 )
## [1] 0.9873283
Es que mas tiene probablididad ya que es la moda