Para resolver este ejercicio tendrán que apelar a lo que aprendieron en las clases anteriores pero también (y no menor) a la lógica y a la buena amiga internet (animense a googlear los nombres de los test, sus interpretaciones y todo lo que los pueda ayudar a completar el ejercicio wikipedia es un buen inicio)


Base: crímenes violentos en EEUU

Este conjunto de datos contiene estadísticas, en arrestos por cada 100.000 residentes, por agresión, asesinato y violación en cada uno de los 50 estados de EE.UU. en 2020. También se indica el porcentaje de la población que vive en zonas urbanas.

Las variables son

La base se ve así

head(data,5)
##            Murder Assault UrbanPop Rape vot_trump
## Alabama      13.2     236       58 21.2        No
## Alaska       10.0     263       48 44.5       Yes
## Arizona       8.1     294       80 31.0       Yes
## Arkansas      8.8     190       50 19.5        No
## California    9.0     276       91 40.6       Yes

Y está estructurada así:

str(data)
## 'data.frame':    50 obs. of  5 variables:
##  $ Murder   : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault  : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop : int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape     : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
##  $ vot_trump: Factor w/ 2 levels "No","Yes": 1 2 2 1 2 2 2 2 2 2 ...

Veamos una estadistica de resumen de esta base:

summary(data)
##      Murder          Assault         UrbanPop          Rape       vot_trump
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30   No :24   
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07   Yes:26   
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10            
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23            
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18            
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00

1. Respondamos preguntas simples:

  1. ¿Cuantas variables tiene la base?
  2. ¿Que tipos de variables son?
  3. ¿Que tipo de distribuciones siguen estas variables?

Hacemos algunos gráficos para ver:

library("ggpubr")
# grafico de densidad
ggdensity(data$Assault, fill = "lightgray")+
  ggtitle("Assault", "density plot")
# QQ plot
ggqqplot(data$Assault)+
  ggtitle("Assault", "QQ Plot")
#Boxplot
boxplot(data$Assault)

  1. ¿Siguen pensando lo mismo de la variable?

2. Se realiza este test:

#correlacion de Pearson
cor.test(data$Assault, data$Rape)
## 
##  Pearson's product-moment correlation
## 
## data:  data$Assault and data$Rape
## t = 6.173, df = 48, p-value = 1.364e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4748141 0.7961645
## sample estimates:
##       cor 
## 0.6652412

Veamos este desafío:

  1. ¿Como interpretaría este resultado?
  2. ¿Como describiría el metodo en la seccion materiales y métodos?
  3. ¿Es esta una hipotesis de causalidad? Fundamente

Vamos a incluir un grafiquito para ayudarnos a intepretar

ggplot(data, aes(x=Assault, y=Rape))+
  geom_point()

  1. ¿Se animan a explicar este gráfico?
  2. ¿Y este otro?
ggplot(data, aes(x=Assault, y=Rape, color=vot_trump))+
  geom_point()+
  geom_smooth(method = "lm")

  1. Y este otro?
library(RColorBrewer)

ggplot(data, aes(x=Assault, y=Rape, color=UrbanPop))+
  geom_point()+
  scale_colour_gradientn(colours = c("white", "yellow", "orange","darkred"))+
  theme_minimal()

  1. Y este otro?
data$mas_60<-data$UrbanPop > 60 #creamos una variable si el procentaje de poblacion urbana es mayor al 60%

ggplot(data, aes(x=Assault, y=Rape, color=mas_60))+
  geom_point()+
  geom_smooth(method = "lm")

3. Los investigadores deciden estudiar esto también:

t.test(data$Assault ~ data$vot_trump)
## 
##  Welch Two Sample t-test
## 
## data:  data$Assault by data$vot_trump
## t = -1.0872, df = 46.559, p-value = 0.2826
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -72.24186  21.56238
## sample estimates:
##  mean in group No mean in group Yes 
##          157.5833          182.9231

Respondamos el desafío:

  1. ¿Como interpretaría este resultado?
  2. ¿Como describiría el metodo en la seccion materiales y métodos?
  3. ¿Es esta una hipotesis de causalidad? Fundamente
  4. ¿Que quiere decir esta p?
  5. ¿Como es la hipótesis nula y alternativa de este test?

Vamos a incluir un grafiquito para ayudarnos a intepretar

ggplot(data, aes(x=vot_trump, y=Assault))+
  geom_boxplot()

  1. ¿Se animan a explicar este gráfico?
  2. Cuando hicieron esto los investigadores querían probar que la que votar a Donald Trump generaba rachas de violencia en la población. ¿Pudieron los investigadores probar su hipótesis y por que?

4. Vamos a ver una tabla de esta base como saldría en un paper:

data %>% tbl_summary(by=vot_trump, missing = "no") %>%
  add_p() %>%
  add_overall()
## Warning for variable 'Murder':
## simpleWarning in wilcox.test.default(x = c(13.2, 8.8, 10.4, 7.2, 2.2, 6, 9.7, : cannot compute exact p-value with ties
## Warning for variable 'Assault':
## simpleWarning in wilcox.test.default(x = c(236, 190, 249, 113, 56, 115, 109, 249, : cannot compute exact p-value with ties
## Warning for variable 'UrbanPop':
## simpleWarning in wilcox.test.default(x = c(58, 50, 83, 65, 57, 66, 52, 66, 51, : cannot compute exact p-value with ties
## Warning for variable 'Rape':
## simpleWarning in wilcox.test.default(x = c(21.2, 19.5, 24, 21, 11.3, 18, 16.3, : cannot compute exact p-value with ties
Characteristic Overall, N = 501 No, N = 241 Yes, N = 261 p-value2
Murder 7.2 (4.1, 11.3) 7.2 (4.2, 10.6) 7.2 (3.9, 11.3) 0.7
Assault 159 (109, 249) 158 (107, 210) 183 (109, 262) 0.3
UrbanPop 66 (54, 78) 66 (58, 74) 69 (53, 80) >0.9
Rape 20 (15, 26) 20 (15, 24) 20 (15, 28) 0.6
mas_60 31 (62%) 16 (67%) 15 (58%) 0.5
1 Median (IQR); n (%)
2 Wilcoxon rank sum test; Pearson's Chi-squared test

Resolvamos este desafío:

  1. ¿Como interpretan esta tabla?
  2. ¿qué hipótesis se está testeando en cada caso? Se anima a redactar el resultado del test como lo escribiría en resultados?
  3. ¿Estan de acuerdo con las decisiones del investigador? Fundamente