Atividade de Nivelamento - Maratona de Boston

Importanção dos pacotes necessários para resolução

library("dplyr")
library("gt")
library("countrycode")
library("ggplot2")

Importanto a base e visualizando

base=read.csv2("Mens_Boston_Marathon_Winners.csv",sep=",",dec = ".")
base=base %>% na.omit()
base %>% head() %>%  gt()
Year Winner Country Time Distance..Miles. Distance..KM.
1897 John McDermott United States 02:55:10 24.5 39.4
1898 Ronald MacDonald Canada 02:42:00 24.5 39.4
1899 Lawrence Brignolia United States 02:54:38 24.5 39.4
1900 Jack Caffery Canada 02:39:44 24.5 39.4
1901 Jack Caffery Canada 02:29:23 24.5 39.4
1902 Sammy Mellor United States 02:43:12 24.5 39.4

Criando as variáveis

Primeiro uma função que converte o tempo em minutos:

converte_para_minutos <- function(tempo) {
  partes <- as.numeric(strsplit(tempo, ":")[[1]])
  return(partes[1] * 60 + partes[2] + partes[3] / 60)
}

agora vamos criar as variáveis:

base$TempoMinutos <- sapply(base$Time, converte_para_minutos)
base=base %>% mutate(velM=TempoMinutos/Distance..KM.)
base$Continente <- countrycode(base$Country, origin = "country.name", destination = "continent")

Apresentação de gráficos

Qual a distância mais frequente da prova? (em milhas e KM)

a=as.data.frame(table(base$Distance..Miles.))
b=as.data.frame(table(base$Distance..KM.))

ggplot(a, aes(x = Var1, y = Freq)) +
  geom_bar(stat = "identity") +
  labs(title = "Distância mais frequente da prova em milhas",
       x = "distância em Milhas",
       y = "Frequência")

ggplot(b, aes(x = Var1, y = Freq)) +
  geom_bar(stat = "identity") +
  labs(title = "Distância mais frequente da prova em KM",
       x = "distância em KM",
       y = "Frequência")

Houve evolução do pace com o passar dos anos? E considerando apenas as provas de 42,2km?

Para entendermos isso, um simples gráfico de dispersão pode mostrar alguma tendência, logo:

ggplot(base, aes(x = Year, y = velM)) +
  geom_point(color = "black") +
  labs(title = "Gráfico de Dispersão",
       x = "Ano",
       y = "Pace")

Notamos que ao passar dos anos, o Pace foi diminuindo, isso é, o tempo em minutos a cada KM foi diminuindo, havendo mais eficiência nas provas.

Agora considerando apenas 42,2km, temos:

ggplot(base %>% filter(Distance..KM.==42.2), aes(x = Year, y = velM)) +
  geom_point(color = "black") +
  labs(title = "Gráfico de Dispersão",
       x = "Ano",
       y = "Pace")

Também verificamos uma tendência de diminuir.

Quais países tiveram mais vencedores antes da década de 90? E depois?

Antes de da década de 90:

a=as.data.frame(table(base %>% filter(Year<1990) %>% pull(Country)))
b=as.data.frame(table(base %>% filter(Year>1990) %>% pull(Country)))

ggplot(a, aes(x = Var1, y = Freq)) +
  geom_bar(stat = "identity") +
  labs(title = "Países mais frequentes antes da década de 90",
       x = "Países",
       y = "Frequência")+
    theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplot(b, aes(x = Var1, y = Freq)) +
  geom_bar(stat = "identity") +
  labs(title = "Países mais frequentes após década de 90",
       x = "Países",
       y = "Frequência")+
    theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

Após a fixação da prova em 42,2km, parece haver diferença no ritmo dos vencedores se considerarmos o continente?

ggplot(base %>% filter(Distance..KM.==42.2), aes(x = Year, y = velM,color =Continente)) +
  geom_point() +
  labs(title = "Gráfico de Dispersão",
       x = "Ano",
       y = "Pace")

Sim, começou com bastante vencedores da américas e por fim, os vencedores foram em sua maioria da Africa.

Aparentemente há diferença no tempo médio de prova entre as décadas de 1960 e 2010?

Para verificarmos isso, vamos usar o gráfico de dispersão, mas antes usaremos a variável mutate para categorizar as décadas a serem analisadas.

base=base %>% mutate(Decada=case_when(Year>=1960 & Year<=1969~"Década 1960",Year>=2010 & Year<=2019~"Década 2010",
                                 TRUE~"Outras Décadas"))
ggplot(base, aes(x = Year, y = TempoMinutos,color =Decada)) +
  geom_point() +
  labs(title = "Gráfico de Dispersão",
       x = "Ano",
       y = "Velocidade")

Sei que queremos a velocidade média, mas verificando pelo diagrama, certamente a velocidade média da década de 2010 é superior que a década de 1960.