library("dplyr")
library("gt")
library("countrycode")
library("ggplot2")Atividade de Nivelamento - Maratona de Boston
Importanção dos pacotes necessários para resolução
Importanto a base e visualizando
base=read.csv2("Mens_Boston_Marathon_Winners.csv",sep=",",dec = ".")
base=base %>% na.omit()
base %>% head() %>% gt()| Year | Winner | Country | Time | Distance..Miles. | Distance..KM. |
|---|---|---|---|---|---|
| 1897 | John McDermott | United States | 02:55:10 | 24.5 | 39.4 |
| 1898 | Ronald MacDonald | Canada | 02:42:00 | 24.5 | 39.4 |
| 1899 | Lawrence Brignolia | United States | 02:54:38 | 24.5 | 39.4 |
| 1900 | Jack Caffery | Canada | 02:39:44 | 24.5 | 39.4 |
| 1901 | Jack Caffery | Canada | 02:29:23 | 24.5 | 39.4 |
| 1902 | Sammy Mellor | United States | 02:43:12 | 24.5 | 39.4 |
Criando as variáveis
Primeiro uma função que converte o tempo em minutos:
converte_para_minutos <- function(tempo) {
partes <- as.numeric(strsplit(tempo, ":")[[1]])
return(partes[1] * 60 + partes[2] + partes[3] / 60)
}agora vamos criar as variáveis:
base$TempoMinutos <- sapply(base$Time, converte_para_minutos)
base=base %>% mutate(velM=TempoMinutos/Distance..KM.)
base$Continente <- countrycode(base$Country, origin = "country.name", destination = "continent")Apresentação de gráficos
Qual a distância mais frequente da prova? (em milhas e KM)
a=as.data.frame(table(base$Distance..Miles.))
b=as.data.frame(table(base$Distance..KM.))
ggplot(a, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "Distância mais frequente da prova em milhas",
x = "distância em Milhas",
y = "Frequência")ggplot(b, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "Distância mais frequente da prova em KM",
x = "distância em KM",
y = "Frequência")Houve evolução do pace com o passar dos anos? E considerando apenas as provas de 42,2km?
Para entendermos isso, um simples gráfico de dispersão pode mostrar alguma tendência, logo:
ggplot(base, aes(x = Year, y = velM)) +
geom_point(color = "black") +
labs(title = "Gráfico de Dispersão",
x = "Ano",
y = "Pace")Notamos que ao passar dos anos, o Pace foi diminuindo, isso é, o tempo em minutos a cada KM foi diminuindo, havendo mais eficiência nas provas.
Agora considerando apenas 42,2km, temos:
ggplot(base %>% filter(Distance..KM.==42.2), aes(x = Year, y = velM)) +
geom_point(color = "black") +
labs(title = "Gráfico de Dispersão",
x = "Ano",
y = "Pace")Também verificamos uma tendência de diminuir.
Quais países tiveram mais vencedores antes da década de 90? E depois?
Antes de da década de 90:
a=as.data.frame(table(base %>% filter(Year<1990) %>% pull(Country)))
b=as.data.frame(table(base %>% filter(Year>1990) %>% pull(Country)))
ggplot(a, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "Países mais frequentes antes da década de 90",
x = "Países",
y = "Frequência")+
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))ggplot(b, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "Países mais frequentes após década de 90",
x = "Países",
y = "Frequência")+
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))Após a fixação da prova em 42,2km, parece haver diferença no ritmo dos vencedores se considerarmos o continente?
ggplot(base %>% filter(Distance..KM.==42.2), aes(x = Year, y = velM,color =Continente)) +
geom_point() +
labs(title = "Gráfico de Dispersão",
x = "Ano",
y = "Pace")Sim, começou com bastante vencedores da américas e por fim, os vencedores foram em sua maioria da Africa.
Aparentemente há diferença no tempo médio de prova entre as décadas de 1960 e 2010?
Para verificarmos isso, vamos usar o gráfico de dispersão, mas antes usaremos a variável mutate para categorizar as décadas a serem analisadas.
base=base %>% mutate(Decada=case_when(Year>=1960 & Year<=1969~"Década 1960",Year>=2010 & Year<=2019~"Década 2010",
TRUE~"Outras Décadas"))
ggplot(base, aes(x = Year, y = TempoMinutos,color =Decada)) +
geom_point() +
labs(title = "Gráfico de Dispersão",
x = "Ano",
y = "Velocidade")Sei que queremos a velocidade média, mas verificando pelo diagrama, certamente a velocidade média da década de 2010 é superior que a década de 1960.