Esse relatório tem como função demonstrar conceitos de probabilidade e estatística, sendo essa a amostragem aleatória simples, amostragem aleatória estratificada e a amostragem aleatória por conglomerado. Esses 3 métodos buscam simplificar e otimizar a análise da busca, para solucionar diversos problemas.
Para essa demonstração será utilizado o banco de dados dos jogos oficiais de League of Legends organizados pela Riot, o banco de dados é disponibilizado pela Oracle Elixir, será usado especificadamente o 2024_LoL_esports_match_data_from_OraclesElixir, contendo as informações das partidas de 2024, esse banco de dados foi minerado e manipulado para ter uma melhor demonstração dos métodos.
Para isso, o objetivo será mostrar as informações dos times e dos jogadores do Campeonato Brasileiro de League of Legends, também popularmente conhecido como CBLol.
Para amostragem aleatória simples é escolhido aleatoriamente uma quantidade pre determinada da população, contendo uma chance igual a todos as linhas de serem selecionadas, um exemplo seria para o teste de eficácia de algum determinado produto, a aleatoriedade expõe a eficácia sem viés e mostra diversas situações.
Já a amostragem aleatória estratificada limita o experimento para uma parte escolhida da população. Dentro dessa parte escolhida, é selecionada aleatoriamente a amostra, sua função é para testar situações específicas ou para comparação com outras situações.
A amostragem aleatória por conglomerado, nesse método é escolhido aleatoriamente dentre um conglomerado para se fazer o experimento, um exemplo seria marcas de celular onde todas as marcas formam um conglomerado e uma ou mais dessas marcas são escolhidas aleatoriamente para ser analisadas ou experimentadas.
Serão utilizados somente os seguintes dados:
teamname = Nome dos times
date = Data da partida
position = Posição em que o jogador exerce ou se é o time como um
todo
playername = Nome do jogador
result = Resultado da partida, 1 indica vitória e 0 indica derrota
#3 - Análise de Resultados
Bibliotecas utilizadas:
readxl
dplyr
DT
Nessa tabela, foi retirada uma amostra de 150 linhas das 1549 do banco de dados escolhido aleatoriamente sem reposição, isso significa que nenhuma das linhas pode ser repetida após ser selecionada, reduzindo para 10% do tamanho total da população. Pode ser necessária uma diminuição na população para diversas análises, com esse método é possível escolher o tamanho da população para ter mais controle e eficácia do estudo.
Novamente foi retirada uma amostra de 150 linhas, mas dessa vez com reposição, sendo que nesse caso existe a possibilidade de a mesma linha ser escolhida mais de uma vez, sendo repetida no banco de dados. Tem a mesma função da outra de poder escolher o tamanho que será feita a análise, mas com a reposição cria-se uma situação mais inusitada, não podendo prever com certidão a amostragem, isso pode ser usado para experimentar em diversas situações diferentes que estão fora do controle.
Nessa tabela e na próxima, o estrato escolhido para ser analisado foi dos 6 melhores times colocados da primeira etapa do CBLol de 2024, sendo eles a LOUD, Pain Gaming, Vivo Keyd Stars, RED Canids, Kabum! Esports e Los Grandes, contendo somente 10 linhas de cada time, esse tipo de amostra tem como função separar os dados em uma categoria para melhor analisar as informações. Nessa amostragem sem reposição, é possível ter uma noção maior dos níveis dos times e de sua campanha até as melhores colocações, podendo assim filtrar situações que resultaram no fim no sucesso.
Diferente da amostra aleatória estratificada sem reposição, a reposição cria uma situação mais voltada ao teste e à análise geral de uma determinada situação, tendo em vista a imprevisibilidade de conter várias linhas repetidas ou até a possibilidade de nenhuma.
Para a amostra aleatória por conglomerado é escolhido aleatoriamente um time entre os 10 e após isso é selecionado 100 linhas do time escolhido, esse tipo de amostra é para uma situação que deseja analisar ou testar em um grupo com fatores em comum, mas o grupo é selecionado aleatoriamente, isso a mais controle e otimiza melhor certos tipos de pesquisa e analise, sendo mais focada e específica na sua amostragem.
Com esse relatório é possível notar a diferença entre esses tipos de amostragem, cada um tempo suas vantagens e desvantagens, sendo suas peculiaridades, os seus forte, obtendo analises mais gerias de uma determinada população com a amostra aleatória simples para uma análise mais focada e detalhada em um grupo seleto sendo possível encontrar características que sejam um diferencial impactante utilizando a amostra aleatória estratificada, onde não seria possível chegar tao facilmente usando outros tipos de amostragem, também podendo unir os dois possibilitando uma análise mais abrangente capacitando testar e analisar o mesmo em diferentes grupos, podendo ao mesmo tempo, ser mais detalhado e aprofundado.
Essas técnicas permitem a evolução da análise em diversos aspectos, podendo se aprofundar com mais facilidade em diversas situações, otimizando o tempo, aumentando a eficácia e ouso dizer que até salva vidas, pois o progresso que causa essas técnicas e métodos em conjunto com um profissional capacitado e outras ferramentas possibilitam a criação de vacinas, remédios e a melhoria do dia a dia da humanidade.
Banco de dados das partidas oficiais disponibilizado pela Oracles Elixir: https://drive.google.com/drive/u/1/folders/1gLSw0RLjBbtaNy0dgnGQDAZOHIgCe-HH
library(readxl)
library(dplyr, warn.conflicts = FALSE)
library(DT, warn.conflicts = FALSE)
Dados <- read_excel("2024_LoL_esports_match_data_from_OraclesElixir.xlsx")
dados <- data.frame(Dados)
dados.amostragem <- dados %>%
select(teamname,date,position, playername, result)
amostra_sem_reposicao <- dados.amostragem %>% sample_n(150, replace = FALSE)
amostra_sem_reposicao %>% DT :: datatable()
amostra_com_reposicao <- dados.amostragem %>% sample_n(150, replace = TRUE)
amostra_com_reposicao %>% DT :: datatable()
times_selecionados <- c("LOUD", "paiN Gaming", "Vivo Keyd Stars", "RED Canids", "KaBuM! Esports", "Los Grandes")
dados_filtrados <- dados.amostragem %>% filter(teamname %in% times_selecionados)
amostra_estratificada = dados_filtrados %>% group_by(teamname) %>% slice_sample(n = 10)
amostra_estratificada %>% DT :: datatable()
amostra_estratificada_reposicao = dados_filtrados %>% group_by(teamname) %>% slice_sample(n = 10, replace = TRUE)
amostra_estratificada_reposicao %>% DT :: datatable()
amostra_conglomerado <- dados.amostragem %>%
filter(teamname == sample(unique(dados.amostragem$teamname), 1)) %>%
slice_sample(n = 100, replace = FALSE)
amostra_conglomerado %>% DT :: datatable()