Imagem Descrição


Introdução

No coração de uma sociedade que valoriza a segurança e o bem-estar de seus cidadãos, o monitoramento e a análise do consumo de álcool desempenham papéis cruciais. Através da lente do dataset breath_alcohol_ames.csv, este projeto busca desvendar os padrões subjacentes e as tendências do consumo de álcool na cidade de Ames.


Contexto

A condução sob o efeito do álcool continua a ser uma das principais causas de acidentes de trânsito em todo o mundo, com implicações significativas para a saúde pública e a segurança. Em Ames, uma cidade conhecida por sua vibrante comunidade e eventos sociais, o desafio de gerenciar e mitigar os riscos associados ao consumo de álcool é particularmente relevante. Com este projeto, propomos uma análise detalhada dos testes de alcoolemia realizados pela polícia local, buscando identificar não apenas os padrões de consumo, mas também qualquer correlação com variáveis demográficas, como gênero e localização, e temporais, como hora e data.


Objetivos

Explorar a distribuição de testes de alcoolemia para entender as tendências gerais no consumo de álcool.

Analisar as diferenças de gênero nos resultados dos testes de alcoolemia, proporcionando insights sobre possíveis diferenças comportamentais.

Investigar a variação temporal dos níveis de alcoolemia, incluindo análises por hora do dia, dia da semana e meses, para identificar períodos de risco mais elevado.

Examinar o impacto de eventos específicos e datas comemorativas no consumo de álcool, visando entender como festividades e eventos sociais influenciam os comportamentos de bebida.

Contribuir com recomendações de políticas públicas baseadas em dados para melhorar as estratégias de prevenção ao consumo de álcool e promoção da segurança.


Metodologia

Utilizando o R, uma linguagem de programação poderosa para análise de dados, este projeto adota uma abordagem metódica para decifrar os padrões contidos no dataset breath_alcohol_ames.csv. Através de técnicas de análise exploratória de dados (EDA), incluindo visualizações gráficas e estatísticas descritivas, buscamos revelar insights significativos e baseados em evidências sobre o consumo de álcool em Ames.


# Carregando o Dataset e os pacotes:
library(scales)
library(dplyr)
library(ggplot2)

dados <- read.csv("C:\\Users\\tiran\\OneDrive\\Área de Trabalho\\Projeto\\breath_alcohol_ames.csv")
# Vamos verificar as primeiras linhas e as variáveis do conjunto de dados para obter uma visão geral dos dados:

head(dados)
##   year month day hour location gender  Res1  Res2
## 1 2017    12  17    1  Ames PD      M 0.046 0.046
## 2 2017    12  14    3   ISU PD      F 0.121 0.120
## 3 2017    12  10    5   ISU PD      F 0.068 0.067
## 4 2017    12  10    3   ISU PD      F 0.077 0.077
## 5 2017    12   9    2   ISU PD      M 0.085 0.084
## 6 2017    12   9    1  Ames PD      M 0.160 0.161
str(dados)
## 'data.frame':    1556 obs. of  8 variables:
##  $ year    : int  2017 2017 2017 2017 2017 2017 2017 2017 2017 2017 ...
##  $ month   : int  12 12 12 12 12 12 12 12 12 12 ...
##  $ day     : int  17 14 10 10 9 9 7 4 3 3 ...
##  $ hour    : int  1 3 5 3 2 1 3 1 1 0 ...
##  $ location: chr  "Ames PD" "ISU PD" "ISU PD" "ISU PD" ...
##  $ gender  : chr  "M" "F" "F" "F" ...
##  $ Res1    : num  0.046 0.121 0.068 0.077 0.085 0.16 0.131 0 0.091 0.095 ...
##  $ Res2    : num  0.046 0.12 0.067 0.077 0.084 0.161 0.131 0 0.09 0.095 ...
# Conseguimos perceber que o Conjunto de dados é formado por 8 variáveis ( colunas ) e 1556 observações ( linhas ).

Variáveis

year: Ano em que o teste de alcoolemia foi realizado.

month: Mês em que o teste de alcoolemia foi realizado.

day: Dia em que o teste de alcoolemia foi realizado.

hour: Hora em que o teste de alcoolemia foi realizado.

location: Local onde o teste de alcoolemia foi realizado, podendo ser a delegacia de Ames (Ames PD) ou a polícia da Iowa State University (ISU PD).

gender: Gênero da pessoa testada (M para masculino, F para feminino).

Res1: Resultado do primeiro teste de alcoolemia.

Res2: Resultado do segundo teste de alcoolemia.


Introdução à Seção de Análise

À medida que mergulhamos nos dados de alcoolemia de Ames, várias perguntas intrigantes surgem. Nesta seção, exploraremos essas questões para desvendar padrões ocultos e entender melhor os comportamentos de consumo de álcool na cidade. Acompanhe-nos nesta jornada analítica para descobrir insights reveladores.


Quantos testes foram administrados em cada ano?

testes_por_ano <- dados %>% 
  group_by(year) %>%
  count()

# vamos ordenar os dados em ordem decrescente:

testes_por_ano_desc <- dados %>%
  group_by(year) %>% 
  count() %>%
  arrange(desc(n))

# Exibindo:

testes_por_ano
## # A tibble: 5 × 2
## # Groups:   year [5]
##    year     n
##   <int> <int>
## 1  2013   397
## 2  2014   344
## 3  2015   286
## 4  2016   269
## 5  2017   260
# Gráfico de Linhas para observar mudanças nos dados ao longo do tempo:

ggplot(testes_por_ano, aes(x = year, y = n)) +
  geom_line() + 
  geom_point(aes(color = factor(year))) + 
  theme_minimal() +
  labs(x = "Ano", y = "Quantidade de Testes", title = "Quantidade de Testes de Alcoolemia por Ano", color = "Ano") 

Conclusão: A análise do gráfico de “Quantidade de Testes de Alcoolemia por Ano” revela que os anos de 2013 e 2014 se destacaram com o maior volume de testes realizados, sugerindo uma intensificação das iniciativas de fiscalização ou talvez um aumento na conscientização sobre os perigos de dirigir após o consumo de álcool durante esse período. Notavelmente, observa-se uma tendência de declínio nos testes subsequentes a 2013, indicando uma possível mudança nas dinâmicas de fiscalização ou nos comportamentos de consumo de álcool. Esse padrão de redução pode ser atribuído a uma variedade de fatores, tais como alterações nas estratégias de policiamento, a implementação de campanhas educacionais mais eficazes visando a redução do consumo de álcool ao volante, ou até mesmo a evolução da percepção pública sobre a segurança no trânsito.


Qual é o departamento de polícia mais movimentado em Ames?

# Cálculo da Frequência Relativa:

distribuicao_testes <- dados %>%
  group_by(location) %>%
  summarise(frequencia = n()) %>%
  mutate(frequencia_relativa = frequencia/sum(frequencia))

distribuicao_testes
## # A tibble: 2 × 3
##   location frequencia frequencia_relativa
##   <chr>         <int>               <dbl>
## 1 Ames PD         616               0.396
## 2 ISU PD          940               0.604
# Gráfico de barras com Porcentagem:

ggplot(distribuicao_testes, aes(x = reorder(location, -frequencia_relativa), y = frequencia_relativa, fill = location)) +
  geom_bar(stat = "identity", color = "black") +
  theme_minimal() +
  labs(x = "Localização", y = "Frequência Relativa", title = "Porcentagem de Testes de Alcoolemia por Local") +
  scale_fill_manual(values = c("ISU PD" = "cyan", "Local2" = "red")) +
  scale_fill_discrete(name = "Local") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) + 
  geom_text(aes(label = scales::percent(frequencia_relativa), y = frequencia_relativa), position = position_stack(vjust = 0.5))

Conclusão A polícia da Iowa State University (ISU PD) foi o local onde ocorreu a maior quantidade de testes de bafômetro. Obteve um quantidade de 940 testes, o que representa 60 % dos testes. Pelo fato de ser um cidade universitária, têm uma alta concentração de jovens adultos, um grupo demográfico que estatisticamente pode ter maior propensão ao consumo de álcool, especialmente em contextos sociais. Eventos universitários e festas contribuem para isso. A localização da universidade e o acesso a bares, restaurantes e eventos que vendem álcool também podem facilitar o consumo.


Imagem Descrição

A tradição de festas que se estendem até a madrugada é uma prática comum em muitas culturas ao redor do mundo, refletindo não apenas uma preferência social por celebrações noturnas, mas também aspectos mais profundos das interações humanas e da vida comunitária. Sabemos que em uma cidade universitária como Ames, existem horários que são realizados mais e menos testes de alcoolemia. Quais horas do dia fazem mais e menos testes de bafômetro?

# Testes de bafômetro por hora:
testes_por_hora <- dados %>%
  group_by(hour) %>%
  count() %>%
  arrange(desc(n))

testes_por_hora
## # A tibble: 24 × 2
## # Groups:   hour [24]
##     hour     n
##    <int> <int>
##  1     2   417
##  2     3   364
##  3     1   219
##  4     4   124
##  5     0    98
##  6    23    51
##  7     5    48
##  8    20    31
##  9    22    29
## 10    21    26
## # ℹ 14 more rows
# Gráfico de barras para visualização:

testes_por_hora %>% 
  ggplot(aes(x = factor(hour), y = n)) +
  geom_bar(stat = "identity",color = "cyan", fill = "black") + 
  theme_minimal() +
  labs(title = "Quantidade de testes por hora", x = "Hora", y = "Número de Testes") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Conclusão: Conforme o gráfico, é possível perceber que entre meia-noite e 4 horas da manhã é o intervalo de tempo onde ocorre a maior quantidade de testes de alcoolemia. É comum que os testes de bafômetro mostrem um aumento nas horas noturnas e nas primeiras horas da manhã, justamente por conta do fechamento de bares e clubes. As horas da manhã e da tarde apontam uma quantidade bem menor de testes, o que possa ser também por conta do horário de trabalho, indicando uma menor incidência de condução sob influência de álcool durante esses períodos.


Agora que descobrimos qual horário do dia é mais comum para o teste do bafômetro, vamos determinar qual época do ano tem mais testes de bafômetro. Qual mês terá mais testes registrados ?

# Quantiade de testes por mês: 

testes_por_mes <- dados %>%
  group_by(month) %>%
  count() %>%
  arrange(desc(n))

testes_por_mes
## # A tibble: 12 × 2
## # Groups:   month [12]
##    month     n
##    <int> <int>
##  1     8   167
##  2     4   159
##  3     9   146
##  4     1   145
##  5     3   145
##  6    10   135
##  7     5   132
##  8     2   117
##  9     6   112
## 10     7   104
## 11    11   100
## 12    12    94
# Plotando um gráfico de Barras para visualização:


testes_por_mes %>%
  ggplot(aes(x = factor(month), y = n)) + 
  geom_bar(stat = "identity", fill = "red", color = "black") + 
  theme_minimal() +
  labs(title = "Quantidade de Testes de bafômetro por mês", x = "Meses Do Ano",y = "Quantidade de Testes por mês") + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Conclusão O mês com a maior quantidade de testes registrados é o mês de agosto.


Quando pensamos em beber em cidades universitárias nos Estados Unidos, geralmente pensamos sempre na imagem de homens bebendo. E assim, pode-se suspeitar que os testes de alcoolemia são dados aos homens com mais frequência do que às mulheres e que os homens bebem mais do que as mulheres. Com quem foi realizado mais testes de bafômetro, com as mulheres ou com os homens ?

Imagem Descrição

# Quantidade de testes para cada Gênero:

dados %>%
  group_by(gender) %>%
  count()
## # A tibble: 3 × 2
## # Groups:   gender [3]
##   gender     n
##   <chr>  <int>
## 1 F        425
## 2 M       1102
## 3 <NA>      29
# Conseguimos notar que há valores 29 valores "NA" na variável gender (Gênero). Será que há mais valores NA em outras variáveis ? Vamos descobrir.

quantidade_na <- sapply(dados, function(x) sum(is.na(x)))
quantidade_na
##     year    month      day     hour location   gender     Res1     Res2 
##        0        0        0        0        0       29        0        0
# Há somentes valores NA na variável Gênero. Vamos filtrar todos os valores que não são NA na variável para que possamos responder a pergunta.


clean_genero <- dados %>%
  filter(!is.na(gender))

sum(is.na(clean_genero$gender))
## [1] 0
# Limpeza concluída.


# Cálculo da Frequência Relativa:


distribuicao_genero <- clean_genero %>%
  group_by(gender) %>%
  summarise(frequencia = n()) %>%
  mutate(frequencia_relativa = frequencia/sum(frequencia))


# Gráfico de setores:

distribuicao_genero %>%
  ggplot(aes(x = " ", y = frequencia_relativa, fill = gender)) + 
  geom_bar(width = 1, stat = "identity", color = "black") + 
  coord_polar("y", start = 0) + 
  theme_void() + 
  labs(title = "Distribuição do Gênero nos testes", x = NULL, y = NULL) + geom_text(aes(label = scales::percent(frequencia_relativa), y = frequencia_relativa), position = position_stack(vjust = 0.5))

Conclusão: Como observado pelo gráfico de setores e confirmado pelos dados, uma grande maioria dos testes de bafômetro (aproximadamente 72%) foram realizados em pessoas do sexo masculino, em contraste com cerca de 28% para o sexo feminino. Esta disparidade pode ser reflexo de padrões sociais e de comportamento relacionados ao consumo de álcool. Pesquisas indicam que, em média, homens tendem a consumir álcool mais frequentemente e em maiores quantidades que mulheres, o que pode contribuir para um maior risco de envolvimento em situações que requerem testes de bafômetro, como a condução sob influência de álcool. É importante, contudo, considerar que esses dados também podem refletir políticas de fiscalização e abordagens de prevenção que variam por gênero, além de possíveis vieses na aplicação de tais testes. A análise destes resultados sugere a necessidade de abordagens direcionadas na educação sobre o consumo de álcool e nas estratégias de prevenção de condução sob efeito de álcool, que considerem as diferenças de gênero nas práticas de consumo de álcool e nas interações com as forças de segurança.


Nos Estados Unidos, a legislação de trânsito proíbe a condução de veículos por indivíduos com uma concentração de álcool no sangue (BAC) que ultrapasse 0,08%. Essa regra é uniforme em todos os 50 estados, estabelecendo um padrão claro para a definição de condução sob influência (DUI).

Considerando a hipótese de que todos os indivíduos submetidos aos testes de bafômetro em nosso dataset estivessem de fato dirigindo — embora os dados não forneçam informações diretas sobre as circunstâncias dos testes —, a presença de qualquer resultado (Res1 ou Res2) acima do limite de 0,08% implicaria na possibilidade de uma acusação formal por DUI.

Teste do bafômetro: existe um padrão ao longo do tempo?

Vimos anteriormente que 2h da manhã é o horário mais comum do dia para a aplicação do teste do bafômetro, e agosto é o mês do ano mais comum para o teste do bafômetro. Agora, olhamos para as semanas do ano ao longo do tempo. Vamos Usar brevemente um pacote para um pouco de manipulação de data-hora.

library(lubridate)

# Criando uma nova variável com a Data:

dados <- dados %>%
  mutate(date = ymd(paste(year, month, day, sep = "-")))


# Criando uma nova variável para a semana:

dados <- dados %>%
  mutate(week = week(date))

head(dados)
##   year month day hour location gender  Res1  Res2 Limit_exceeded       date
## 1 2017    12  17    1  Ames PD      M 0.046 0.046             No 2017-12-17
## 2 2017    12  14    3   ISU PD      F 0.121 0.120            Yes 2017-12-14
## 3 2017    12  10    5   ISU PD      F 0.068 0.067             No 2017-12-10
## 4 2017    12  10    3   ISU PD      F 0.077 0.077             No 2017-12-10
## 5 2017    12   9    2   ISU PD      M 0.085 0.084            Yes 2017-12-09
## 6 2017    12   9    1  Ames PD      M 0.160 0.161            Yes 2017-12-09
##   week
## 1   51
## 2   50
## 3   50
## 4   50
## 5   49
## 6   49

Como as semanas diferem ao longo do tempo?

Usaremos a nova variável semana para analisar a frequência do teste ao longo do tempo. Finalizamos com um gráfico de séries temporais mostrando a frequência dos testes de bafômetro por semana no ano, com uma linha para cada ano.

# Vamos Contar o número de testes por semana em cada ano e já colocando em ordem decrescente:

testes_por_semana_emcada_ano <- dados %>%
  count(week, year) %>%
  arrange(desc(n)) 
  

testes_por_semana_emcada_ano2 <- testes_por_semana_emcada_ano %>% head(10)

testes_por_semana_emcada_ano2
##    week year  n
## 1    15 2014 21
## 2     8 2014 17
## 3    11 2014 16
## 4    34 2013 15
## 5    33 2013 14
## 6    15 2017 13
## 7    18 2014 13
## 8    28 2013 13
## 9     2 2013 12
## 10    4 2014 12
# Criando o gráfico de séries temporais com uma linha para cada ano:


testes_por_semana_emcada_ano %>%
  ggplot(aes(x = week, y = n, color = factor(year))) + 
  geom_line() +
  geom_point(aes(color = factor(year))) + 
  scale_x_continuous(breaks = seq(0,52,2))

Conclusão A partir dos dados visualizados no gráfico e detalhados na tabela, identificamos que a semana 15 de 2014 registrou o pico de testes de alcoolemia, com um total de 21 testes realizados. Esse aumento notável suscita a questão sobre os fatores que contribuíram para o elevado número de testes nesta específica semana. Será que eventos particulares ou circunstâncias únicas nesse período podem explicar o aumento da fiscalização e detecção de alcoolemia?


O Encerramento da VEISHEA: Um Fim para a Tradição Histórica na Iowa State University

Da Wikipedia: A VEISHEA era uma festividade tradicional que marcava o calendário da primavera na Iowa State University, situada em Ames, Iowa. Reconhecida como a maior celebração estudantil do país, a VEISHEA unia, durante uma semana anual, um vasto leque de atividades que incluíam um desfile emblemático, exposições abertas ao público das diversas faculdades e departamentos da universidade, bem como a apresentação de inovações tecnológicas e produtos desenvolvidos por organizações estudantis. Estas últimas também aproveitavam o evento para promover campanhas beneficentes. A riqueza cultural do evento era complementada por conferências e espetáculos que atraíam personalidades e artistas de renome ao estado de Iowa, consolidando a VEISHEA como um ponto de encontro que atraía milhares de visitantes ao campus universitário a cada ano.

No entanto, após mais de nove décadas de tradição, a VEISHEA teve seu término anunciado de forma definitiva devido a episódios de violência e vandalismo ocorridos durante as celebrações de 2014, incluindo atos de embriaguez que resultaram na destruição de veículos e postes de iluminação. Infelizmente, esses eventos não foram isolados, marcando apenas o mais recente de uma série de incidentes que mancharam a história do festival. A decisão de encerrar a VEISHEA reflete a preocupação com a segurança e o bem-estar da comunidade, pondo fim a uma era de celebrações que, apesar de ricas em cultura e engajamento comunitário, foram ofuscadas pela recorrência de distúrbios.

# Vamos plotar o gráfico de série temporal anterior com anotações apontando para as duas últimas semanas VEISHEA na história do estado de Iowa:


ggplot() + 
  geom_point(data = testes_por_semana_emcada_ano, aes(x = week, y = n, color = factor(year))) + 
  geom_line(data = testes_por_semana_emcada_ano, aes(x = week, y = n, color = factor(year))) + 
  geom_segment(data = NULL, arrow = arrow(angle = 20, length = unit(0.1, "inches"),
                                          ends = "last", type = "closed"), 
               aes(x = c(20,20), xend = c(15.5,16), y = c(21, 20), yend = c(21, 12.25))) + 
  geom_text(data = NULL, aes(x = 23, y = 20.5, label = "VEISHEA Weeks"), size = 3) + 
  scale_x_continuous(breaks = seq(0,52,2))


Conclusão do Projeto sobre Testes de Alcoolemia em Ames, Iowa

A análise detalhada dos dados de testes de alcoolemia realizados em Ames, Iowa, especialmente no contexto da Iowa State University, revela insights significativos sobre padrões de consumo de álcool e comportamento de condução. Aumentos notáveis na realização de testes durante os anos de 2013 e 2014 sugerem uma resposta intensificada das autoridades locais frente aos desafios impostos pelo consumo excessivo de álcool, especialmente em um ambiente universitário vibrante. A subsequente diminuição nos testes pode refletir tanto mudanças nas estratégias de fiscalização quanto alterações no comportamento da comunidade.

A localização dos testes, majoritariamente conduzidos pela Polícia da Iowa State University, destaca a influência do ambiente universitário e dos eventos sociais relacionados. A alta concentração de jovens adultos, propensos a participar de festividades e eventos que envolvem álcool, sugere uma ligação direta entre as dinâmicas sociais universitárias e a incidência de condução sob influência de álcool.

A distribuição temporal dos testes, com picos entre meia-noite e 4 horas da manhã e durante o mês de agosto, bem como a predominância de testes em homens, ressalta a necessidade de políticas públicas e estratégias educacionais focadas. Isso inclui campanhas de conscientização sobre os perigos da condução sob efeito de álcool e programas de educação direcionados à população jovem adulta e estudantil.

Além disso, a análise dos dados em relação ao evento da VEISHEA, que tradicionalmente atraía um grande número de visitantes ao campus, fornece um contexto crucial para entender o pico de testes observados em determinados períodos. O encerramento da VEISHEA, devido aos distúrbios relacionados ao álcool, reflete as complexidades de gerenciar eventos de grande escala em ambientes universitários e as consequências potenciais na segurança pública.

Conclui-se que a combinação de um ambiente universitário ativo, eventos sociais centrados no álcool, e a demografia específica de Ames contribui para os desafios de segurança pública relacionados à alcoolemia. A resposta das autoridades locais e da universidade, juntamente com a necessidade de estratégias preventivas e educacionais adaptadas, são cruciais para mitigar os riscos associados à condução sob influência de álcool. Este projeto sublinha a importância de abordagens multidisciplinares e colaborativas na promoção da segurança no trânsito e na criação de um ambiente comunitário mais seguro e responsável.


Imagem Descrição