Utilização de Técnicas de Amostragem em Dupla sobre Voos de Nova York em 2013

Introdução

A amostragem é essencial em estatística para selecionar uma parte representativa de uma população e permitir análises precisas. Neste relatório, aplicamos três técnicas de amostragem ao conjunto de dados nycflights13, que documenta voos de Nova York em 2013: Amostragem Aleatória Simples, Amostragem Aleatória Estratificada e Amostragem Aleatória por Conglomerado.

A Amostragem Aleatória Simples garante que cada voo tenha a mesma probabilidade de ser incluído na amostra, proporcionando uma visão geral e imparcial das características dos voos. Em contraste, a Amostragem Aleatória Estratificada divide os dados por companhias aéreas (carrier), assegurando uma representação proporcional e facilitando comparações entre diferentes transportadoras. Já a Amostragem Aleatória por Conglomerado agrupa os voos por aeroportos de origem (origin), selecionando aleatoriamente alguns desses grupos para análise, o que é eficiente quando os elementos são naturalmente agrupados.

Este relatório apresenta a metodologia aplicada, os resultados obtidos e a discussão sobre a representatividade de cada técnica, concluindo com uma análise sobre a eficácia das diferentes abordagens de amostragem.

Metodologia

Os dados foram obtidos a partir do dataset nycflights13, que contém informações detalhadas sobre todos os voos que partiram dos três principais aeroportos de Nova York (JFK, LGA, EWR) em 2013. Utilizamos as bibliotecas dplyr e ggplot2 para carregar, processar e visualizar os dados, bem como para realizar análises exploratórias e aplicar técnicas de amostragem.

Ferramentas Utilizadas

Para a análise e processamento dos dados, utilizamos as seguintes ferramentas e bibliotecas:

dplyr: Para manipulação e transformação dos dados.
ggplot2: Para visualização dos dados.
nycflights13: Para acessar o conjunto de dados específico dos voos de Nova York em 2013.
knitr: Para a geração do relatório em formato R Markdown.

Funções de dplyr

sample_n(): para realizar amostragem aleatória simples.
sample_frac(): para realizar amostragem aleatória estratificada e por conglomerado.
group_by(): para agrupar os dados por diferentes categorias.

Funções de ggplot2

ggplot(): para criar gráficos.
geom_histogram(): para visualizar a distribuição das distâncias dos voos.
geom_bar(): para visualizar a distribuição das companhias aéreas e dos aeroportos de origem.

As etapas acima foram essenciais para preparar os dados para as análises subsequentes, garantindo que as amostras fossem representativas e permitissem uma avaliação comparativa e detalhada das diferentes técnicas de amostragem.

Resultados e discussões

Nesta seção, detalhamos a aplicação das três técnicas de amostragem ao conjunto de dados nycflights13: Amostragem Aleatória Simples, Amostragem Aleatória Estratificada e Amostragem Aleatória por Conglomerado. Cada técnica foi cuidadosamente selecionada e aplicada para garantir a representatividade e relevância dos dados amostrados, e também será feita uma reflexão e discussão dos dados obtidos

Amostragem Aleatória Simples

A Amostragem Aleatória Simples é a técnica mais básica e intuitiva, onde cada elemento da população tem a mesma probabilidade de ser selecionado para a amostra. Para este relatório, aplicamos essa técnica ao conjunto de dados flights para obter uma amostra representativa de 1000 voos. Este método garante que não haja qualquer viés na seleção dos voos.

set.seed(123)  # Define a semente para reprodução dos resultados
amostra_simples <- sample_n(flights, size = 1000, replace = FALSE)

Visualização da Amostragem Aleatória Simples:

Para a Amostragem Aleatória Simples, visualizamos a distribuição das distâncias dos voos na amostra com um gráfico de densidade. Este Gráfico mostra a frequência relativa das diferentes distâncias percorridas pelos voos, permitindo identificar padrões e variações na amostra. Uma distribuição suave indica que a amostra captura bem a variabilidade da população, sem concentração excessiva em determinadas faixas de distância.

# Visualização da distribuição das distâncias dos voos na amostra simples
ggplot(amostra_simples, aes(x = distance)) +
  geom_density(fill = "skyblue", alpha = 0.7) +
  labs(title = "Distribuição das Distâncias dos Voos na Amostra Aleatória Simples",
       x = "Distância (milhas)",
       y = "Densidade") +
  theme_minimal()

A análise descritiva dos dados mostra que as distâncias percorridas variam significativamente, com uma média de aproximadamente 1024.47 milhas e um desvio padrão de 704.8478471 milhas. A variabilidade reflete a diversidade de trajetos encontrados nos voos reais, essencial para entender as características operacionais e logísticas dos voos.

A distribuição das distâncias dos voos na amostra simples sugere que as rotas variam consideravelmente em termos de distância percorrida. Isso pode impactar diretamente o planejamento de rotas e o consumo de combustível das companhias aéreas, além de influenciar as estratégias de logística e gestão de frota.

Amostragem Aleatória Estratificada

A Amostragem Aleatória Estratificada divide a população em grupos mutuamente exclusivos chamados estratos, e uma amostra aleatória simples é extraída de cada estrato. Neste relatório, os estratos foram definidos pelas companhias aéreas (carrier). Esta técnica é especialmente útil quando há subgrupos distintos dentro da população, garantindo que cada subgrupo esteja proporcionalmente representado na amostra.

Para garantir que todas as companhias aéreas sejam representadas, selecionamos uma amostra aleatória de voos de cada companhia aérea proporcional ao número total de voos de cada uma, sem impor um limite máximo.

# Amostragem aleatória estratificada
amostra_estratificada <- flights %>%
  group_by(carrier) %>%
  sample_frac(size = 0.1, replace = FALSE) %>%
  ungroup()

Visualização da Amostragem Aleatória Estratificada

Na Amostragem Aleatória Estratificada, visualizamos a representação das companhias aéreas na amostra com um gráfico de barras. Este gráfico ilustra o número de voos amostrados de cada companhia aérea, permitindo verificar se a amostra estratificada reflete proporcionalmente a estrutura da população. Garantir a representatividade proporcional é crucial para comparações precisas entre diferentes companhias aéreas.

# Visualização da distribuição das companhias aéreas na amostra estratificada
ggplot(amostra_estratificada, aes(x = carrier)) +
  geom_bar(fill = "lightgreen", color = "black") +
  labs(title = "Distribuição das Companhias Aéreas - Amostragem Aleatória Estratificada",
       x = "Companhia Aérea",
       y = "Contagem") +
  theme_minimal()

A análise dos dados estratificados mostra que todas as principais companhias aéreas estão representadas na amostra, refletindo sua distribuição na população total de voos. A representatividade proporcional das companhias aéreas permite comparações justas entre diferentes operadoras, crucial para avaliações de desempenho, pontualidade e outras métricas operacionais.

A representação equitativa das companhias aéreas na amostra estratificada facilita análises mais precisas e significativas. Com isso, é possível identificar padrões de desempenho, pontualidade e eficiência entre as operadoras, fornecendo insights valiosos para melhorias operacionais e estratégias de mercado.

Amostragem Aleatória por Conglomerado

Na Amostragem Aleatória por Conglomerado, a população é dividida em grupos naturais, ou conglomerados, e alguns desses conglomerados são selecionados aleatoriamente. Para este relatório, utilizamos os aeroportos de origem (origin) como conglomerados. Esta técnica é eficaz quando a população está naturalmente agrupada, tornando mais eficiente a coleta de dados.

Selecionamos aleatoriamente 10% dos voos de cada aeroporto de origem. Esta abordagem permite capturar variabilidade dentro dos conglomerados, mantendo a análise focada em grupos específicos.

# Amostragem aleatória por conglomerado
amostra_conglomerado <- flights %>%
  group_by(origin) %>%
  sample_frac(size = 0.1, replace = FALSE)

Visualização da Amostragem Aleatória por conglomerado

A Amostragem Aleatória por Conglomerado foi aplicada utilizando os aeroportos de origem (origin) como conglomerados. Selecionamos aleatoriamente 10% dos voos de cada aeroporto de origem para compor a amostra, capturando variações geográficas nos padrões de voo e na infraestrutura aeroportuária.

# Gráfico de barras mostrando a proporção de voos por aeroporto na amostra
ggplot(amostra_conglomerado, aes(x = origin)) +
  geom_bar(fill = "skyblue", color = "black") +
  labs(title = "Distribuição dos Voos por Aeroporto de Origem - Amostragem Aleatória por Conglomerado",
       x = "Aeroporto de Origem",
       y = "Contagem") +
  theme_minimal()

A análise descritiva dos dados por conglomerado mostra que diferentes aeroportos de origem contribuem de maneira variável para a amostra, refletindo as diferenças geográficas e operacionais na distribuição de voos. A distribuição dos voos por aeroporto de origem na amostra por conglomerado oferece insights sobre as variações regionais nos padrões de voo.

Essas variações são cruciais para compreender a demanda por voos em diferentes regiões e para planejar estratégias de expansão e otimização da capacidade aeroportuária. Isso permite identificar padrões de tráfego e alocar recursos de maneira mais eficiente, melhorando a operação geral dos aeroportos e das companhias aéreas.

Conclusão

Neste trabalho, aplicamos as três técnicas de amostragem - amostragem aleatória simples, amostragem aleatória estratificada e amostragem aleatória por conglomerado - ao conjunto de dados nycflights13. A amostragem aleatória simples nos permitiu obter uma visão geral representativa dos dados dos voos, revelando a diversidade nas distâncias percorridas e mostrando-se eficaz para obter uma visão equilibrada e não enviesada dos dados. A amostragem aleatória estratificada proporcionou uma análise detalhada e comparativa das diferentes companhias aéreas operando em Nova York, garantindo uma representação proporcional de cada companhia e permitindo avaliar de forma justa o desempenho e as características operacionais de cada uma. A amostragem aleatória por conglomerado, utilizando os aeroportos de origem como conglomerados, capturou variações geográficas nos padrões de voo, fornecendo insights sobre a demanda e a distribuição de tráfego entre os aeroportos JFK, LGA e EWR.

A utilização combinada destas técnicas de amostragem revelou-se crucial para uma análise abrangente e detalhada dos dados de voos de Nova York em 2013, permitindo uma compreensão mais profunda e multifacetada do conjunto de dados. Cada técnica trouxe à tona diferentes aspectos dos dados, garantindo que os resultados sejam representativos e que as conclusões sejam baseadas em análises bem fundamentadas. Este trabalho não só fornece uma análise dos dados de voos de Nova York, mas também serve como um exemplo prático da aplicação de técnicas de amostragem em estudos estatísticos. As metodologias empregadas e os resultados obtidos reforçam a importância de uma abordagem cuidadosa e sistemática na análise de dados, essencial para a tomada de decisões informadas e eficazes no contexto da aviação e além.

Referências

R Documentation. (n.d.). dplyr: A Grammar of Data Manipulation. Retrieved from https://cran.r-project.org/web/packages/dplyr/index.html
R Documentation. (n.d.). ggplot2: Create Elegant Data Visualisations Using the Grammar of Graphics. Retrieved from https://cran.r-project.org/web/packages/ggplot2/index.html
https://www.kaggle.com/datasets/aephidayatuloh/nyc-flights-2013

Anexos

library(dplyr) library(ggplot2) library(nycflights13)

data(flights)

set.seed(123) amostra_simples <- flights %>% sample_n(size = 1000, replace = FALSE)

amostra_estratificada <- flights %>% group_by(carrier) %>% sample_frac(size = 0.1, replace = FALSE) %>% ungroup()

amostra_conglomerado <- flights %>% group_by(origin) %>% sample_frac(size = 0.1, replace = FALSE)

ggplot(amostra_simples, aes(x = distance)) + geom_density(fill = “skyblue”, alpha = 0.7) + labs(title = “Distribuição das Distâncias dos Voos na Amostra Aleatória Simples”, x = “Distância (milhas)”, y = “Densidade”) + theme_minimal()

ggplot(amostra_estratificada, aes(x = carrier)) + geom_bar(fill = “lightgreen”, color = “black”) + labs(title = “Distribuição das Companhias Aéreas - Amostragem Aleatória Estratificada”, x = “Companhia Aérea”, y = “Contagem”) + theme_minimal()

ggplot(amostra_conglomerado, aes(x = origin)) + geom_bar(fill = “skyblue”, color = “black”) + labs(title = “Distribuição dos Voos por Aeroporto de Origem - Amostragem Aleatória por Conglomerado”, x = “Aeroporto de Origem”, y = “Contagem”) + theme_minimal()