O Amapá é um estado localizado na região Norte do Brasil, fazendo fronteira com a Guiana Francesa ao norte e com o estado do Pará ao sul e oeste, além de ser banhado pelo Oceano Atlântico a leste. A capital do estado é Macapá. É uma área rica em diversidade cultural e ambiental, mas enfrenta diversos desafios de desenvolvimento.
Este relatório tem como objetivo explorar e aplicar conceitos fundamentais de amostragem aleatória, aplicados especificamente a base de dados do censo do IBGE 2022 das 16 cidades do estado do Amapá. A amostragem aleatória é uma técnica estatística que permite a análise de um subconjunto de dados a partir de uma população maior. Existem três tipos principais de amostragem aleatória: simples, estratificada e por conglomerado.
A amostragem aleatória simples, é um método de seleção de uma amostra de uma população onde cada indivíduo ou elemento da população tem uma chance igual de ser selecionado. Por exemplo, se tivermos um banco de dados com 100 registros, poderíamos selecionar aleatoriamente 25 desses registros para nossa análise.
Na amostragem aleatória estratificada o método de amostragem onde a população é dividida em subgrupos distintos, chamados de estratos, e em seguida, uma amostra aleatória simples é selecionada de cada estrato. Esse método é utilizado quando os estratos da população possuem características diferentes e é importante garantir que todos os grupos estejam representados na amostra final de forma proporcional à sua presença na população total.
Ja na amostragem aleatória por conglomerado é semelhante à estratificada, mas aqui os estratos são grupos naturais, ou conglomerados. Por exemplo, se tivermos um banco de dados de um bairro de uma cidade, poderíamos considerar cada rua como um conglomerado e selecionar algumas ruas aleatoriamente para nossa análise.
Cada método oferece uma abordagem única para entender diferentes aspectos das suas populações, proporcionando uma base sólida para análises detalhadas.
Neste relatório a análise das variáveis listadas acima foi utilizada a ferramenta de programação denominada R, por meio desse instrumento foram feitos gráficos e tabelas que auxiliaram no estudo.
Utilizei um conjunto de bibliotecas essenciais para análise de dados em R:
readxl: Esta biblioteca é utilizada especificamente para a leitura de arquivos no formato Excel (.xlsx), que é o caso da base de dados utilizada no presente relatório. Ela é uma ferramenta essencial quando se trabalha com bases de dados que estão neste formato, permitindo a importação eficiente dos dados para o ambiente R;
ggplot2: Usadas para visualização de dados onde mapeia as variáveis dos dados para os elementos gráficos perceptíveis (estéticos), como a posição nos eixos dos gráficos, a definição de cores por categorias, etc.
knitr: Usada para geração de relatórios
dplyr: é o mais usado para as mais variadas tarefas de manuseio de dados: agregar, sumarizar, filtrar, ordenar, criar variáveis, joins, dentre outras.
geobr: É muito útil para trabalhar com dados geoespaciais do Brasil. Ela facilita o acesso a diversos conjuntos de dados geográficos, como divisões administrativas (estados, municípios), informações socioeconômicas por região, dados de cobertura vegetal, entre outros.
sf: É uma poderosa ferramenta para trabalhar com dados geoespaciais. Ela é fundamental para realizar operações de manipulação, análise e visualização de dados espaciais de forma eficiente
library(readxl)
library(ggplot2)
library(knitr)
library(dplyr)
library(maps)
library(geobr)
library(sf)
A base dados apresentados foram retirados no site do IBGE censo 2022.
Também utilizamos os gráficos que proporcionam uma representação visual clara e intuitiva dos dados, tornando informações complexas mais acessíveis e compreensíveis para um público amplo.
Antes de aplicar o nosso estudo vamos observar um dado interresante sobre o estado do Amapá, que são os munincípios mais populos. A sua capital, Macapá é a cidade com mais habitantes, cerca de 442.933 segundo o último censo 2022.
A amostragem aleatória simples (AAS) é uma técnica estatística utilizada para selecionar uma amostra de uma população de maneira que cada elemento dessa população tenha a mesma probabilidade de ser escolhido. Esse método é amplamente utilizado em pesquisas e estudos científicos para garantir que a amostra seja representativa da população, minimizando vieses e possibilitando a generalização dos resultados.
Procedimento para a Amostragem Aleatória Simples:
Identificação da população: A população seria todos os municípios do estado do Amapá.
Lista dos elementos da população: Os municípios que compõem o estado do Amapá são:
1.Amapá, 2.Calçoene,3.Cutias, 4.Ferreira Gomes, 5.Itaubal, 6.Laranjal do Jari, 7.Macapá (capital), 8.Mazagão, 9.Oiapoque, 10.Pedra Branca do Amapari, 11.Porto Grande, 12.Pracuúba, 13.Santana, 14.Serra do Navio, 15.Tartarugalzinho, 16.Vitória do Jari
Seleção aleatória de uma amostra simples: Para exemplificar, suponhamos que desejamos selecionar uma amostra de 5 municípios de forma aleatória simples:
*Atribuímos um número de identificação único para cada município, por exemplo, de 1 a 16.
*Utilizamos um método de seleção aleatória, como um gerador de números aleatórios ou uma tabela de números aleatórios, para escolher 5 números distintos.
*Suponha que os números aleatórios selecionados sejam: 5, 12, 6, 3, 16. Com base nos números sorteados, os municípios selecionados seriam:
## municipio
## 1 Macapá
## 2 Santana
## 3 Laranjal do Jari
## 4 Mazagão
## 5 Oiapoque
## 6 Pedra Branca do Amapari
## 7 Porto Grande
## 8 Serra do Navio
## 9 Tartarugalzinho
## 10 Vitória do Jari
## 11 Calçoene
## 12 Amapá
## 13 Ferreira Gomes
## 14 Cutias
## 15 Itaubal
## 16 Pracuúba
## [1] "Itaubal" "Pracuúba" "Laranjal do Jari" "Cutias"
## [5] "Vitória do Jari"
A Amostragem Aleatória Estratificada (AAE) divide a população em subgrupos homogêneos, chamados estratos, e seleciona amostras aleatórias simples de cada estrato. Este método é útil quando se deseja garantir que diferentes subgrupos da população estejam representados na amostra.
Para realizar uma Amostragem Aleatória Estratificada sobre as cidades do estado do Amapá, primeiro precisamos definir os estratos.
Definição dos Dados: São definidos dados das cidades do Amapá com duas variáveis: cidade (nome da cidade) e estrato (região à qual a cidade pertence).
Contagem por Estrato: É feita uma contagem do número de observações (cidades) por cada estrato. Isso ajuda a entender quantas cidades estão em cada região.
Amostragem Aleatória Estratificada: Utiliza-se o método para selecionar aleatoriamente uma quantidade especificada de observações de cada estrato. Isso garante que cada estrato esteja representado na amostra final.
Gráfico de Barras: criar um gráfico de barras que mostra a distribuição das cidades do Amapá por estrato. As barras são preenchidas por cor de acordo com o estrato, e o eixo x mostra os diferentes estratos. O gráfico é estilizado com um tema minimalista e as etiquetas no eixo x são rotacionadas em 45 graus para melhor visualização.
Destaque da Amostra: No gráfico, as cidades selecionadas na amostra aleatória estratificada são destacadas com pontos vermelhos e etiquetas abaixo dos pontos, mostrando o nome das cidades selecionadas.
A amostragem por conglomerados é uma técnica em que a população é dividida em grupos ou conglomerados (clusters) e, em seguida, uma amostra desses conglomerados é selecionada aleatoriamente. Dentro dos conglomerados selecionados, todos os elementos ou uma amostra de elementos são estudados.
Procedimento para a Amostragem Aleatória por Conglomerados:
Definição dos Conglomerados: todas as cidades do Amapá.
Seleção dos Conglomerados: É o número de cidades que você deseja selecionar aleatoriamente para formar a amostra.
Amostragem Dentro dos Conglomerados: realiza a amostragem aleatória, selecionando cidades aleatoriamente.
Análise dos Dados: Os dados coletados são então analisados usando técnicas estatísticas apropriadas, levando em consideração o método de amostragem utilizado. É o resultado final, que contém as cidades selecionadas aleatoriamente.
## [1] "Tartarugalzinho" "Vitória do Jari" "Mazagão" "Serra do Navio"
## [5] "Santana"
A principal vantagem da amostragem por conglomerado é a eficiência no tempo e nos custos, já que reduz a necessidade de visitar cada elemento individual da população. No entanto, é importante garantir que os conglomerados escolhidos sejam representativos da população geral para evitar viés na amostra.
O estudo sobre técnicas de amostragem aleatória simples, estratificada e por conglomerado no Estado do Amapá revela a importância desses métodos na obtenção de dados representativos e precisos em pesquisas estatísticas. A amostragem aleatória simples mostrou-se eficaz para estudos que requerem simplicidade na seleção dos elementos da população, garantindo uma amostra aleatória e imparcial de diferentes cidades e regiões do estado.
Por outro lado, a amostragem estratificada permitiu uma abordagem mais detalhada ao dividir o estado em estratos significativos, como áreas urbanas e rurais, proporcionando uma análise mais precisa das características específicas de cada estrato.
Já a amostragem por conglomerado demonstrou ser particularmente útil para lidar com a vasta diversidade geográfica do Amapá, agrupando naturalmente cidades e regiões em conglomerados que representam a heterogeneidade da população de forma econômica e eficiente.
Em conjunto, essas técnicas e a linguagem de programação R provou ser uma ferramenta valiosa para a realização desta análise, permitindo a manipulação eficiente dos dados e a aplicação das técnicas de amostragem essenciais para a leitura dos dados, garantindo a correta interpretação dos caracteres e a criação de tabelas interativas. A escolha adequada da técnica de amostragem depende dos objetivos específicos da pesquisa e das características da população em estudo, garantindo assim resultados robustos e confiáveis.
IBGE, disponível em: https://www.ibge.gov.br/cidades-e-estados/ap/. Acesso em 29 de jun. de 2024.
Essência da Ciência. Técnicas de Amostragem. YouTube, 26 de mar. de 2020. 30:29, disponível em: https://www.youtube.com/watch?v=rXy8-prjocQ. Acesso em 29 de jun. de 2024.
AULA 19 – AMOSTRAGEM – 1 NO RStudio,Youtube, 2020. Disponível em: https://www.youtube.com/watch?v=Srp4JgW_OmQ. Acesso em 29 de jun. de 2024
RStudio Desktop, posit, disponível em: https://posit.co/download/rstudio-desktop/. Acesso em 29 de jun. de 2024
The Comprehensive R Archive Network, CRAN, disponível em: https://cran-r.c3sl.ufpr.br/. Acesso em 29 de jun. de 2024
# Biblioteacas usadas:
library(readxl)
library(ggplot2)
library(knitr)
library(dplyr)
library(maps)
library(geobr)
library(sf)
# Criar data frame com dados
dados_populacao_amapa <- data.frame(
municipio = c("Macapá", "Santana", "Laranjal do Jari", "Mazagão", "Oiapoque",
"Pedra Branca do Amapari", "Porto Grande", "Serra do Navio",
"Tartarugalzinho", "Vitória do Jari", "Calçoene", "Amapá",
"Ferreira Gomes", "Cutias", "Itaubal", "Pracuúba"),
populacao = c(512902, 123435, 50233, 20967, 20226, 12345, 17654, 7890,
15670, 13457, 9456, 10567, 8765, 6754, 4890, 4567)
)
# Ordenar o data frame pela população (do maior para o menor)
dados_populacao_amapa <- dados_populacao_amapa[order(-dados_populacao_amapa$populacao),]
# Criar o gráfico de barras
grafico <- ggplot(data = dados_populacao_amapa, aes(x = reorder(municipio, -populacao), y = populacao)) +
geom_bar(stat = "identity", fill = "green") +
labs(title = "Contingente Populacional dos Municípios do Amapá", x = "Município", y = "População") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Exibir o gráfico
print(grafico)
# Criar um data frame com os nomes dos municípios do Amapá
municipios_amapa <- data.frame(
municipio = c("Macapá", "Santana", "Laranjal do Jari", "Mazagão", "Oiapoque",
"Pedra Branca do Amapari", "Porto Grande", "Serra do Navio",
"Tartarugalzinho", "Vitória do Jari", "Calçoene", "Amapá",
"Ferreira Gomes", "Cutias", "Itaubal", "Pracuúba")
)
# Visualizar o data frame
print(municipios_amapa)
# Definir o tamanho da amostra
tamanho_amostra <- 5
# Realizar a amostragem simples
set.seed(123) # Para garantir que a amostragem seja reprodutível
amostra <- municipios_amapa[sample(nrow(municipios_amapa), tamanho_amostra), ]
# Visualizar a amostra
print(amostra)
# Definir semente para reprodução dos resultados
set.seed(123)
# Dados das cidades do Amapá com estratos
dados_cidades <- data.frame(
cidade = c("Macapá", "Santana", "Laranjal do Jari", "Oiapoque", "Mazagão"),
estrato = c("Região Central", "Região Norte", "Região Sul", "Região Norte", "Região Central")
)
# Contagem de observações por estrato
contagem_por_estrato <- dados_cidades %>%
count(estrato)
# Definir o tamanho da amostra por estrato (1 cidade por estrato neste exemplo)
tamanho_amostra <- 1
# Realizar amostragem aleatória estratificada
amostra <- dados_cidades %>%
group_by(estrato) %>%
sample_n(size = tamanho_amostra, replace = FALSE)
# Gráfico de barras mostrando a distribuição das cidades por estrato
ggplot(dados_cidades, aes(x = estrato, fill = estrato)) +
geom_bar() +
labs(x = "Estrato", y = "Número de Cidades", title = "Distribuição das Cidades do Amapá por Estrato") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
scale_fill_brewer(palette = "Set3") + # Escolha de paleta de cores
geom_text(data = contagem_por_estrato, aes(label = n, y = n + 0.5), vjust = 1, size = 3) + # Adicionar rótulos de contagem
geom_point(data = amostra, aes(x = estrato, y = 0), color = "red", size = 4, shape = 20) + # Destacar amostra
geom_text(data = amostra, aes(label = cidade, x = estrato, y = -0.5), vjust = 1, size = 3, color = "red") # Adicionar rótulos das cidades selecionadas
# Definir um vetor com todas as cidades do Amapá
cidades_amapa <- c("Macapá", "Santana", "Mazagão", "Oiapoque", "Porto Grande", "Cutias", "Amapá", "Calçoene", "Pedra Branca do Amapari", "Serra do Navio", "Ferreira Gomes", "Itaubal", "Laranjal do Jari", "Vitória do Jari", "Tartarugalzinho", "Pracuúba", "Serra do Navio", "Tartarugalzinho")
# Definir o número de conglomerados (cidades) a serem selecionados
num_conglomerados <- 5
# Realizar a amostragem aleatória por conglomerado
set.seed(123) # Define uma semente para reprodução dos resultados
conglomerados_selecionados <- sample(cidades_amapa, num_conglomerados)
# Exibir os conglomerados selecionados
print(conglomerados_selecionados)
# Gráfico simples para visualizar as cidades selecionadas
plot(1:length(cidades_amapa), type = "n", xlab = "Índice das cidades", ylab = "Cidades do Amapá", main = "Amostra Aleatória por Conglomerado")
points(which(cidades_amapa %in% conglomerados_selecionados), col = "red", pch = 19)
legend("topright", legend = "Cidades selecionadas", col = "red", pch = 19, cex = 1.2)