Projeto Ataque de tubarão
Introdução
O objetivo deste projeto é analisar e compreender os incidentes globais de ataques de tubarão, utilizando um conjunto de dados abrangente que fornece informações detalhadas sobre esses eventos. Os ataques de tubarão são eventos significativos que despertam grande interesse e preocupação em diversas comunidades e indivíduos que frequentam áreas costeiras em todo o mundo.
Por que deveríamos estar interessados nisso?
A compreensão dos padrões e tendências dos ataques de tubarão é crucial para garantir a segurança das pessoas que desfrutam das praias e atividades aquáticas. Ao entender os fatores que contribuem para esses incidentes, podemos tomar medidas proativas para reduzir os riscos e aumentar a segurança dos banhistas, surfistas, mergulhadores e outros frequentadores das áreas costeiras.
Abordagem Planejada:
Para abordar essa questão, utilizei o conjunto de dados fornecido, que contém uma variedade de informações relevantes, como ano, localização, atividade da vítima, gravidade das lesões e outros detalhes relacionados aos ataques de tubarão. A metodologia empregada envolverá análises estatísticas descritivas e inferenciais, além de técnicas de visualização de dados para identificar padrões, correlações e tendências nos dados.
Como essa analise ajudará os potenciais clientes?
A análise realizada neste projeto fornecerá informações para autoridades locais, gestores de praias, organizações de conservação marinha, pesquisadores e o público em geral. Ao compreender melhor os padrões e fatores associados aos ataques de tubarão, os potenciais clientes poderão implementar medidas de segurança mais eficazes, como sistemas de alerta precoce, estratégias de monitoramento de praias e programas de educação pública. Essas medidas têm o potencial de salvar vidas e promover um ambiente mais seguro para todos que desfrutam das atividades costeiras.
Fonte de dados
O conjunto de dados sobre incidentes globais de ataques de tubarão foi adquirido do site Kaggle, Kaggle Global Shark Attack Incidents Dataset O dataset original tem 6461 linhas 266 colunas.
Pacotes requeridos
| Biblioteca | Descrição |
|---|---|
| lubridate | Para trabalhar com datas |
| dplyr | Para manipulação avançada dos DataFrames |
| knitr | Para geração de tabelas |
| ggplot2 | Para geração de gráficos |
| plotly | Para geração de gráficos interativos |
| maps | Para trabalhar com mapas |
| rmdformats | Template customizado para documentos RMarkdown |
| mapdata | Dados geográficos adicionais para mapas |
| mapproj | Funções para projetar e transformar coordenadas |
| DT | Para geração de tabelas interativas |
Preparação dos dados
A fonte original dos dados utilizados no projeto é oKaggle Global Shark Attack Incidents Dataset O dataset Original tinha um propósito abrangente que fornece registros atualizados diariamente de incidentes de ataques de tubarões em todo o mundo. Oferece informações valiosas sobre vários aspectos de cada incidente, incluindo a data e local do ataque, detalhes específicos sobre a atividade que a vítima estava envolvida no momento e se resultou ou não em morte. Com colunas adicionais como idade, descrição da lesão e até mesmo o nome da vítima envolvida, este conjunto de dados visa informar as pessoas sobre os riscos associados às atividades aquáticas costeiras. O original tinha 266 colunas, onde da coluna 23-266 eram colunas vazias. Além disso, o dataset original possuia muitos valores ausentes em todos as colunas, sem a colocação do NA.
Quais atividades de limpeza de dados foram executadas?
Remoção de Colunas vazias, organização de colunas e adição de NA.
Primeiramente, procedemos com a remoção de todas as colunas consideradas dispensáveis, seguida pela exclusão das colunas que não seriam utilizadas no escopo do projeto, a fim de adquirir os dados relevantes. Posteriormente, realizamos a substituição de todos os espaços em branco por valores NA para lidar com dados ausentes de forma consistente.
Organização de valores e ordenação de variaveis.
A organização dos valores a partir da coluna “Type”, foi realizada uma limpeza para categorizar os tipos de ataques de tubarão em apenas dois tipos: “Unprovoked” e “Provoked”. Essa medida foi adotada para facilitar a criação de gráficos e análises estatísticas. No conjunto de dados original, a classificação estava confusa, incluindo valores como “questionável” ou “inválido”. Por isso, para simplificar, foi atribuido a esses valores o NA (não aplicável).
Organização da Coluna Activity para facilitar a leitura dos dados
A organização da coluna Activity foi realizada visando facilitar a interpretação dos dados. Muitas entradas continham descrições detalhadas, como “swimming alone”, “swimming with friends”, entre outras, o que dificultava a análise. Portanto, optei por agrupar todas essas atividades sob a categoria “swimming” para simplificar a leitura e tornar a interpretação dos dados mais eficiente. E isso foi feito para todas as atividades que estavam com essas variaçoes.
dados$Activity <- gsub("(?i).*\\b(swimming)\\b.*", "Swimming", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(fishing)\\b.*", "Fishing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(spearfishing)\\b.*", "Spearfishing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(surfing)\\b.*", "Surfing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(floating)\\b.*", "Floating", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(walking)\\b.*", "Walking", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(diving)\\b.*", "Diving", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(freediving)\\b.*", "Diving", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(surf)\\b.*", "Surfing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(paddle)\\b.*", "Paddling", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(paddleboarding)\\b.*", "Paddling", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(paddling)\\b.*", "Paddling", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(paddleskiing)\\b.*", "Paddling", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(Body Boarding)\\b.*", "Body boarding", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(bathing)\\b.*", "Bathing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(sunbathing)\\b.*", "Bathing", dados$Activity, perl = TRUE)
dados$Activity <- gsub("(?i).*\\b(snorkeling)\\b.*", "Snorkeling", dados$Activity, perl = TRUE)Organização da Coluna Age
Durante a organização dos dados, notou-se que a coluna “Age” continha uma combinação de números e strings. Para garantir a consistência dos dados, foi realizada uma limpeza para remover todas as strings, mantendo apenas os valores numéricos. Além disso, foram ajustados os números que excediam duas casas, garantindo a uniformidade dos dados. E também mudei o nome da coluna que tava “Unnamed” para Sex, que é o sexo do individuo que foi atacado.
Organização da Coluna Injury e FATAL
Durante a preparação dos dados, foi observado que a coluna “Injury” continha uma variedade de descrições sobre os ferimentos sofridos pelas vítimas. Para simplificar a análise e a criação de tabelas, várias entradas estavam detalhadas com informações específicas, como “FATAL, but death was probably due to drowning” ou “Thigh bitten, FATAL”, entre outras. Com o objetivo de facilitar a interpretação dos dados e tornar a análise mais eficiente, todas as descrições foram uniformizadas para que estivessem associadas ao termo “FATAL”, indicando a gravidade do incidente. Essa modificação permitirá uma análise mais clara e direta dos resultados obtidos durante o estudo dos incidentes com tubarões. Além disso, alguns dados estavam como “NA” na tabela FATAL, que era para ter Y, mesmo contando como a injury sendo FATAL.
names(dados)[10] <- "FATAL"
dados$Injury <- gsub("(?i).*\\b(fatal)\\b.*", "FATAL", dados$Injury, perl = TRUE)
dados$Injury <- gsub("(?i).*\\b(No injury)\\b.*", "No injury", dados$Injury, perl = TRUE)
dados$Injury <- gsub("(?i).*\\b(Minor Injury)\\b.*", "Minor Injury", dados$Injury, perl = TRUE)
dados$Injury <- gsub("(?i).*\\b(PROVOKED INCIDENT)\\b.*", "PROVOKED INCIDENT", dados$Injury, perl = TRUE)
dados <- dados %>%
mutate(FATAL = ifelse(grepl("No injury", Injury, ignore.case = TRUE), "N", FATAL))
dados <- dados %>%
mutate(FATAL = ifelse(grepl("FATAL", Injury, ignore.case = TRUE), "Y", FATAL))
dados <- dados %>%
mutate(FATAL = ifelse(FATAL %in% c("Y", "N"), FATAL, NA))Organização Coluna Species
A organização da coluna “Species” foi um passo crucial na análise dos dados, para identificar quais espécies de tubarão estavam mais frequentemente associadas a ataques e quais eram menos comuns. Essa organização foi para facilitar a criação de gráficos e análises mais precisas, especialmente ao investigar quais espécies estavam mais relacionadas aos casos fatais. Ao compreender a distribuição das espécies de tubarão nos incidentes, para assim ter uma noção sobre os padrões de ataques e os riscos associados a cada espécie.
dados$Species <- gsub("(?i).*\\b(tiger shark)\\b.*", "Tiger shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(White shark)\\b.*", "White shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(White sharks)\\b.*", "White shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(nurse shark)\\b.*", "Nurse shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(bull shark)\\b.*", "Bull shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(blue shark)\\b.*", "Blue shark", dados$Species, perl = TRUE)
dados$Species <- gsub("(?i).*\\b(lemon shark)\\b.*", "Lemon shark", dados$Species, perl = TRUE)Conjunto resultante
A tabela interativa abaixo oferece uma visão preliminar do conjunto de dados resultante após as operações de limpeza e organização. Esta visualização é uma representação inicial do estado dos dados, limitada a 100 entradas para fins de visualização.
Analise Exploratoria
As análises serão realizadas através de subconjuntos cuidadosamente selecionados, cada um correspondendo a uma análise específica. Essa abordagem permitirá a criação de gráficos e tabelas que proporcionarão uma visualização precisa e detalhada dos dados. Cada observação terá um propósito definido, o qual será minuciosamente explicado ao longo da análise.
Organização do conjunto que vai ser trabalhado
Foi criado um novo conjunto de dados focando nas informações sobre os países e o tipo de ataque de tubarão. Para isso, selecionamos as colunas “Country” e “Type” do conjunto de dados original. Em seguida, organizamos esses dados em três grupos distintos: os ataques “Provoked”, os “Unprovoked” e aqueles em que o tipo de ataque não foi especificado (NA). Cada grupo foi separado e organizado de acordo com o tipo de ataque.
new_datasetCT <- dados[, c("Country", "Type")]
provoked <- new_datasetCT[new_datasetCT$Type == "Provoked", ]
unprovoked <- new_datasetCT[new_datasetCT$Type == "Unprovoked", ]
na_values <- new_datasetCT[is.na(new_datasetCT$Type), ]
new_ordered_dataset <- rbind(provoked, unprovoked, na_values)Agora, um conjunto de dados fazendo um processo de organização do dataset com base na coluna “FATAL”. A organização foi crucial para analisar e compreender melhor as incidências de ataques de tubarão, quais os tubarões que estão mais relacionados com os resultados fatais.
new_datasetIFS <- dados[, c("Injury", "FATAL", "Species")]
new_datasetIFS <- new_datasetIFS %>%
arrange(FATAL)Foi criado um novo conjunto de dados que combina as informações de país (Country) e idade (Age). Para ver em qual pais o indice de pessoas menos de 18 anos foram vitimas. Além disso, uma nova coluna foi adicionada para indicar se as vítimas eram adultas ou não. Para fazer isso, verificamos se a idade registrada era maior que 18 anos.
dados$Age <- as.numeric(dados$Age)
new_datasetCA <- data.frame(COUNTRY = dados$Country, Age = dados$Age)
new_datasetCA$ADULT <- ifelse(new_datasetCA$Age >= 18, "Y", "N")
new_datasetCA$ADULT <- factor(new_datasetCA$ADULT, levels = c("Y", "N"))Essa junção das colunas ‘Activity’, ‘Species’ e ‘FATAL’ para observar a relação entre as atividades,species e os ataques fatais de tubarão. Essa combinação nos permitirá analisar quais atividades estiveram mais frequentemente associadas a ataques fatais e identificar possíveis padrões ou tendências.
Cidades e ataques provocados
provoked_counts <- table(provoked$Country)
provoked_counts_df <- as.data.frame(provoked_counts)
provoked_counts_df <- provoked_counts_df[order(provoked_counts_df$Freq, decreasing = TRUE), ]
ggplot(head(provoked_counts_df, 5), aes(x = reorder(Var1, Freq), y = Freq)) +
geom_bar(stat = "identity", fill = "skyblue", color = "black") +
labs(title = "Top 5 Cities with Most Provoked Shark Attacks",
x = "City",
y = "Number of Attacks") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))# Counts of unprovoked attacks
unprovoked_counts <- table(unprovoked$Country)
unprovoked_counts_df <- as.data.frame(unprovoked_counts)
unprovoked_counts_df <- unprovoked_counts_df[order(unprovoked_counts_df$Freq, decreasing = TRUE), ]
ggplot(head(unprovoked_counts_df, 5), aes(x = reorder(Var1, Freq), y = Freq)) +
geom_bar(stat = "identity", fill = "salmon", color = "black") +
labs(title = "Top 5 Cities with Most Unprovoked Shark Attacks",
x = "City",
y = "Number of Attacks") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))Nos gráficos apresentados, revelamos que os Estados Unidos lideram tanto em ataques provocados quanto não provocados. Essa constatação nos leva a refletir sobre as dinâmicas complexas que envolvem esses incidentes. Será que os mares americanos são particularmente propícios a esses encontros? Ou será que as interações entre humanos e tubarões nesse país são mais comuns devido ao grande número de atividades aquáticas realizadas em suas costas? Esses ataques são em sua maioria Fatais?
Além dos Estados Unidos, outros países como Austrália e África do Sul também se destacam nos dois tipos de ataques. No entando, é visto que o Brasil se destaca como o top 5 de ataques de tubarão não provocados, isso corresponde a apenas 2,8% do total de ataques não provocados. Mas, esses ataques do brasil são em sua maioria Fatais? Qual a diferença do Brasil para o Estados Unidos em questão de ataques?
library(ggplot2)
top_5_unprovoked <- head(unprovoked_counts_df, 5)
total_attacks <- sum(top_5_unprovoked$Freq)
top_5_unprovoked$Percentage <- round((top_5_unprovoked$Freq / total_attacks) * 100, 1)
pie_chart <- ggplot(top_5_unprovoked, aes(x = "", y = Freq, fill = Var1)) +
geom_bar(stat = "identity", width = 1) +
geom_text(aes(label = paste0(Percentage, "%")), position = position_stack(vjust = 0.5), size = 4) +
coord_polar("y", start = 0) +
labs(title = "Top 5 Countries with Most Unprovoked Shark Attacks",
fill = "Country",
x = NULL, y = NULL) +
theme_void() +
theme(legend.title = element_text(size = 12, face = "bold"),
legend.text = element_text(size = 10),
plot.title = element_text(size = 14, hjust = 0.5, face = "bold"))
print(pie_chart)| Country | Number of Attacks |
|---|---|
| USA | 2310 |
| AUSTRALIA | 1374 |
| SOUTH AFRICA | 585 |
| NEW ZEALAND | 135 |
| PAPUA NEW GUINEA | 135 |
| BAHAMAS | 115 |
| BRAZIL | 113 |
| MEXICO | 95 |
| ITALY | 71 |
| FIJI | 62 |
Atividades das vitimas
A análise dos incidentes de ataques de tubarão, o Brasil se destaca significativamente, com quase 100% dos seus ataques sendo categorizados como não provocados. Isso levanta questões intrigantes sobre a natureza desses incidentes. Quais fatores contribuem para uma proporção tão alta de ataques não provocados no Brasil em comparação com outros países, especialmente os Estados Unidos?
Ataques não provocados referem-se a incidentes em que o tubarão inicia o encontro sem provocação externa. Compreender a prevalência de tais ataques lança luz sobre vários fatores ambientais e comportamentais que influenciam o comportamento dos tubarões e as interações entre humanos e tubarões.
Para aprofundar a análise desses incidentes, nossa análise se estende à coluna ‘Atividade’. Ao examinarmos as atividades associadas aos ataques de tubarão, buscamos descobrir padrões e correlações que possam oferecer insights sobre as circunstâncias que cercam esses encontros. Através dessa exploração, pretendemos discernir se certas atividades estão mais propensas a interações com tubarões e em que medida o comportamento humano influencia a probabilidade de tais incidentes.
brazil_usa_australia_activities <- filter(dados, Country %in% c("BRAZIL", "USA", "AUSTRALIA"))
activity_counts <- brazil_usa_australia_activities %>%
count(Country, Activity) %>%
arrange(Country, desc(n))
colnames(activity_counts) <- c("País", "Atividade", "Quantidade")
datatable(activity_counts,
caption = "Atividades relacionadas a ataques no Brasil, EUA e Austrália (em ordem decrescente)")A predominância da atividade de surfe e natação tanto nos Estados Unidos quanto no Brasil, e também na Austrália, pode ser atribuída à popularidade desses esportes em áreas costeiras onde os ataques de tubarão são mais comuns. Os surfistas passam muito tempo na água e frequentemente se encontram em locais onde os tubarões também estão presentes, o que aumenta as chances de encontros.
Em relação à proporção de ataques fatais entre o Brasil e os Estados Unidos e a Austrália seria necessário analisar os dados detalhadamente para determinar com precisão. No entanto, mesmo que o Brasil tenha uma quantidade significativa de ataques de tubarão, a taxa de fatalidade pode ser relativamente baixa.
Atividades relacionado a fatalidade
filtered_data <- dados %>%
filter(Country %in% c("BRAZIL", "USA", "AUSTRALIA"))
selected_activities <- c("Swimming", "Fishing", "Surfing")
brazil_fatal_attacks <- filtered_data %>%
filter(Country == "BRAZIL" & Activity %in% selected_activities) %>%
group_by(Activity, FATAL) %>%
summarise(Count = n(), .groups = "drop") %>%
arrange(desc(Activity))
usa_fatal_attacks <- filtered_data %>%
filter(Country == "USA" & Activity %in% selected_activities) %>%
group_by(Activity, FATAL) %>%
summarise(Count = n(), .groups = "drop") %>%
arrange(desc(Activity))
australia_fatal_attacks <- filtered_data %>%
filter(Country == "AUSTRALIA" & Activity %in% selected_activities) %>%
group_by(Activity, FATAL) %>%
summarise(Count = n(), .groups = "drop") %>%
arrange(desc(Activity))
ggplot(brazil_fatal_attacks, aes(x = Activity, y = Count, fill = FATAL)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Atividades no Brasil por Fatalidade",
x = "Atividade",
y = "Número de Ataques",
fill = "Fatalidade") +
theme_minimal()ggplot(usa_fatal_attacks, aes(x = Activity, y = Count, fill = FATAL)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Atividades nos EUA por Fatalidade",
x = "Atividade",
y = "Número de Ataques",
fill = "Fatalidade") +
theme_minimal()ggplot(australia_fatal_attacks, aes(x = Activity, y = Count, fill = FATAL)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Atividades na Austrália por Fatalidade",
x = "Atividade",
y = "Número de Ataques",
fill = "Fatalidade") +
theme_minimal()Especies Relacionadas aos ataques
A análise dos dados revela que no Brasil, proporcionalmente, ao contrário dos Estados Unidos e da Austrália, a atividade de natação apresentou uma frequência maior de ataques fatais do que não fatais. Essa observação levanta questionamentos significativos: Por que essa discrepância existe? Seria devido à presença de uma espécie específica de tubarão? Ou talvez esteja relacionada à faixa etária das vítimas? Será que as vítimas são predominantemente jovens ou mais velhas? Atraves dessa tabela vamos analisar, primeiramente, quais tubaroes estão mais ralacionados a esses tres tipos de atividades.
library(dplyr)
library(DT)
filtered_data <- new_datasetASF %>%
filter(Activity %in% c("Swimming", "Surfing", "Fishing"))
activity_species_counts <- filtered_data %>%
group_by(Activity, Species) %>%
summarise(Count = n(), .groups = "drop") %>%
arrange(Activity, desc(Count))
datatable(activity_species_counts,
caption = "Relação entre Atividades e Espécies de Tubarões")Com base na análise da tabela, podemos observar que os tubarões brancos e os tubarões tigres estão mais frequentemente relacionados aos ataques em diversas atividades aquáticas. Especificamente, em atividades como Swimming, Fishing e Surfing, o tubarão branco surge como a espécie mais comumente associada aos ataques. Mas, essa é a especie mais predominante no brasil? E essa é especie que mais está relacionado a ataques FATAIS?
library(dplyr)
library(ggplot2)
selected_species <- c("White shark", "Tiger shark", "Bull shark")
fatal_species <- new_datasetASF %>%
filter(FATAL == "Y" & Species %in% selected_species) %>%
group_by(Species) %>%
summarise(Count = n()) %>%
arrange(desc(Count))
ggplot(data = fatal_species, aes(x = reorder(Species, -Count), y = Count, fill = Species)) +
geom_bar(stat = "identity") +
labs(title = "Número de Ataques Fatais por Espécie",
x = "Espécie",
y = "Número de Ataques Fatais",
fill = "Espécie") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))library(dplyr)
library(ggplot2)
filtered_data <- new_datasetCSAF %>%
filter(FATAL == "N")
species_counts <- filtered_data %>%
group_by(Species) %>%
summarise(count = n()) %>%
arrange(desc(count)) %>%
top_n(3, count)
ggplot(species_counts, aes(x = reorder(Species, -count), y = count, fill = Species)) +
geom_bar(stat = "identity") +
labs(title = "Top 3 Species com Maior Frequência em 'N' da Coluna FATAL",
x = "Species",
y = "Frequência",
fill = "Species") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))filtered_data <- new_datasetCSAF %>%
filter(Country %in% c("BRAZIL", "USA", "AUSTRALIA") &
Species %in% c("Tiger shark", "White shark", "Bull shark"))
species_counts <- filtered_data %>%
group_by(Country, Species) %>%
summarise(Count = n())## `summarise()` has grouped output by 'Country'. You can override using the
## `.groups` argument.
| Country | Species | Count |
|---|---|---|
| AUSTRALIA | Bull shark | 32 |
| AUSTRALIA | Tiger shark | 55 |
| AUSTRALIA | White shark | 156 |
| BRAZIL | Bull shark | 4 |
| BRAZIL | Tiger shark | 10 |
| BRAZIL | White shark | 3 |
| USA | Bull shark | 71 |
| USA | Tiger shark | 115 |
| USA | White shark | 204 |
Uma distinção notável entre o Brasil e os Estados Unidos e Austrália é que, proporcionalmente, no Brasil há uma maior incidência de ataques de tubarão tigre em comparação com o tubarão branco. No entanto, é importante ressaltar que, tanto em ataques fatais quanto não fatais, o tubarão branco é a espécie que mais ataca humanos. Sua presença é significativamente maior nos Estados Unidos e Austrália, o que contribui para o número consideravelmente maior de ataques nesses países em comparação com o Brasil.
Idade das vitimas em relação ao Pais
library(dplyr)
library(knitr)
filtered_data <- new_datasetCA %>%
filter(COUNTRY %in% c("USA", "AUSTRALIA", "BRAZIL"))
adult_counts <- filtered_data %>%
group_by(COUNTRY, ADULT) %>%
summarise(Count = n())## `summarise()` has grouped output by 'COUNTRY'. You can override using the
## `.groups` argument.
| COUNTRY | ADULT | Count |
|---|---|---|
| AUSTRALIA | Y | 568 |
| AUSTRALIA | N | 178 |
| AUSTRALIA | NA | 628 |
| BRAZIL | Y | 45 |
| BRAZIL | N | 20 |
| BRAZIL | NA | 48 |
| USA | Y | 1050 |
| USA | N | 498 |
| USA | NA | 762 |
Aqui, enxergamos que a maioria das vítimas são pessoas de idade mais avançada. Essa observação sugere que indivíduos mais velhos podem estar mais envolvidos em atividades aquáticas, como natação, surfe e pesca, que são as principais causas de ataques de tubarão. Esses esportes aquáticos frequentemente colocam as pessoas em proximidade com os habitats naturais dos tubarões, aumentando assim o potencial de encontros e incidentes.
Conclusão
O presente estudo buscou analisar o conjunto de dados sobre ataques de tubarão, com o objetivo de fornecer insights para entender melhor os padrões e tendências desses incidentes, bem como suas implicações para a segurança e conscientização pública. Através de análises exploratórias e visualizações gráficas, identificamos insights significativos que podem informar a tomada de decisões estratégicas relacionadas à prevenção de ataques e educação sobre o assunto.
Durante a análise, observamos diversas descobertas importantes:
Distribuição de Ataques por Espécie: Foi identificado as espécies de tubarões mais comuns em ataques proporcionalmente. Certas espécies, como o tubarão-tigre, têm uma incidência maior em determinadas regiões, como o Brasil, em comparação com o tubarão-branco. No entanto, o tubarão branco é a especie que mais ataca quando comparado de maneira geral em todos os países analisados.
Perfil das Vítimas: Foi analisado a idade das vítimas de ataques de tubarão, foi notado que, em muitos casos, as vítimas são adultos, o que pode estar relacionado às atividades aquáticas praticadas por esse grupo demográfico, como natação e surf. Essa descoberta destaca a necessidade de campanhas de conscientização direcionadas a adultos sobre medidas de segurança ao praticar esportes aquáticos.
Atividades mais relacionadas: As atividades em relação aos ataques de tubarão são o surfe, a natação e a pesca. No Brasil, em comparação com os Estados Unidos e Austrália (os dois países que registram mais ataques de tubarão), há uma diferença nos ataques durante a prática da natação, que, no Brasil, são mais fatais do que não fatais.
Após análises detalhadas, constatou-se uma predominância do tubarão tigre no Brasil. Em uma comparação na tabela sobre tubarões em relação aos ataques não fatais, o tubarão tigre figura em terceiro lugar, atrás do tubarão branco. Mostrando que, é um tubarao onde existe uma proporcao de ataque que a maioria dos seus ataques são fatais, uma vez que, ele é o terceiro em analise de ataques NAO FATAIS, e o segundo de ataques fatais. Porém, o tubarão branco é uma especie que ataca mais, então quando analisamos também que a quantidade real de ataques, tanto na Austrália quanto nos EUA, o tubarão branco está disparadamente relacionado a uma quantiade maior de ataques tanto fatais quanto não fatais. Esta diferença revela que nos EUA e na Austrália, tem mais ataques de tubarão do que no Brasil.
Limitações e Melhorias: Reconhecemos que a análise poderia ser aprimorada com a inclusão de mais dados contextuais, como informações sobre as condições ambientais e comportamentais que podem influenciar os ataques de tubarão. Ter mais dados preenchidos, buscar mais respostas, pois o dataset tem muitos valores NAS, o que prejudica na manipulação dos dados. Além disso, a aplicação de técnicas avançadas de análise de dados, como machine learning, poderia permitir previsões mais precisas sobre a probabilidade de ataques em determinadas áreas e épocas do ano.
Em resumo, este estudo oferece insights valiosos que podem ser usados para aprimorar as estratégias de segurança e conscientização pública em relação aos ataques de tubarão. Ao entender melhor os padrões e tendências desses incidentes, é possível implementar medidas proativas para proteger banhistas e promover um ambiente aquático mais seguro.