Para resolver este ejercicio tendrán que apelar a lo que aprendieron en las clases anteriores pero también (y no menor) a la lógica y a la buena amiga internet (animense a googlear los nombres de los test, sus interpretaciones y todo lo que los pueda ayudar a completar el ejercicio wikipedia es un buen inicio)
Este conjunto de datos contiene estadísticas, en arrestos por cada 100.000 residentes, por agresión, asesinato y violación en cada uno de los 50 estados de EE.UU. en 2020. También se indica el porcentaje de la población que vive en zonas urbanas.
Las variables son
Murder: Detenciones por asesinato (por cada 100.000)
Assault : Arrestos por agresión (por cada 100.000)
UrbanPop : Porcentaje de población urbana
Rape: Arrestos por violación (por cada100,000)
vot_trump: si en ese estado ganó Donald Trump las elecciones a presidente
La base se ve así
head(data,5)
## Murder Assault UrbanPop Rape vot_trump
## Alabama 13.2 236 58 21.2 No
## Alaska 10.0 263 48 44.5 Yes
## Arizona 8.1 294 80 31.0 Yes
## Arkansas 8.8 190 50 19.5 No
## California 9.0 276 91 40.6 Yes
Y está estructurada así:
str(data)
## 'data.frame': 50 obs. of 5 variables:
## $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
## $ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
## $ UrbanPop : int 58 48 80 50 91 78 77 72 80 60 ...
## $ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
## $ vot_trump: Factor w/ 2 levels "No","Yes": 1 2 2 1 2 2 2 2 2 2 ...
Veamos una estadistica de resumen de esta base:
summary(data)
## Murder Assault UrbanPop Rape vot_trump
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30 No :24
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07 Yes:26
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
Hacemos algunos gráficos para ver:
library("ggpubr")
# grafico de densidad
ggdensity(data$Assault, fill = "lightgray")+
ggtitle("Assault", "density plot")
# QQ plot
ggqqplot(data$Assault)+
ggtitle("Assault", "QQ Plot")
#Boxplot
boxplot(data$Assault)
#correlacion de Pearson
cor.test(data$Assault, data$Rape)
##
## Pearson's product-moment correlation
##
## data: data$Assault and data$Rape
## t = 6.173, df = 48, p-value = 1.364e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4748141 0.7961645
## sample estimates:
## cor
## 0.6652412
Vamos a incluir un grafiquito para ayudarnos a intepretar
ggplot(data, aes(x=Assault, y=Rape))+
geom_point()
ggplot(data, aes(x=Assault, y=Rape, color=vot_trump))+
geom_point()+
geom_smooth(method = "lm")
library(RColorBrewer)
ggplot(data, aes(x=Assault, y=Rape, color=UrbanPop))+
geom_point()+
scale_colour_gradientn(colours = c("white", "yellow", "orange","darkred"))+
theme_minimal()
data$mas_60<-data$UrbanPop > 60 #creamos una variable si el procentaje de poblacion urbana es mayor al 60%
ggplot(data, aes(x=Assault, y=Rape, color=mas_60))+
geom_point()+
geom_smooth(method = "lm")
t.test(data$Assault ~ data$vot_trump)
##
## Welch Two Sample t-test
##
## data: data$Assault by data$vot_trump
## t = -1.0872, df = 46.559, p-value = 0.2826
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -72.24186 21.56238
## sample estimates:
## mean in group No mean in group Yes
## 157.5833 182.9231
Vamos a incluir un grafiquito para ayudarnos a intepretar
ggplot(data, aes(x=vot_trump, y=Assault))+
geom_boxplot()
data %>% tbl_summary(by=vot_trump, missing = "no") %>%
add_p() %>%
add_overall()
## Warning for variable 'Murder':
## simpleWarning in wilcox.test.default(x = c(13.2, 8.8, 10.4, 7.2, 2.2, 6, 9.7, : cannot compute exact p-value with ties
## Warning for variable 'Assault':
## simpleWarning in wilcox.test.default(x = c(236, 190, 249, 113, 56, 115, 109, 249, : cannot compute exact p-value with ties
## Warning for variable 'UrbanPop':
## simpleWarning in wilcox.test.default(x = c(58, 50, 83, 65, 57, 66, 52, 66, 51, : cannot compute exact p-value with ties
## Warning for variable 'Rape':
## simpleWarning in wilcox.test.default(x = c(21.2, 19.5, 24, 21, 11.3, 18, 16.3, : cannot compute exact p-value with ties
| Characteristic | Overall, N = 501 | No, N = 241 | Yes, N = 261 | p-value2 |
|---|---|---|---|---|
| Murder | 7.2 (4.1, 11.3) | 7.2 (4.2, 10.6) | 7.2 (3.9, 11.3) | 0.7 |
| Assault | 159 (109, 249) | 158 (107, 210) | 183 (109, 262) | 0.3 |
| UrbanPop | 66 (54, 78) | 66 (58, 74) | 69 (53, 80) | >0.9 |
| Rape | 20 (15, 26) | 20 (15, 24) | 20 (15, 28) | 0.6 |
| mas_60 | 31 (62%) | 16 (67%) | 15 (58%) | 0.5 |
| 1 Median (IQR); n (%) | ||||
| 2 Wilcoxon rank sum test; Pearson's Chi-squared test | ||||