Avaliação da Usabilidade da Imputação Múltipla de Dados Faltantes em Pacotes R: Uma Análise exploratória com dados reais públicos e abertos.
1 Problema de Negócio
A previsão de indicadores agrícolas é uma prática essencial para o planejamento e a tomada de decisões estratégicas no setor. Um dos desafios mais complexos desse processo é estimar o retorno médio com base em fatores como a área plantada em diferentes regiões do Brasil. Em um país de dimensões continentais, com uma diversidade climática e geográfica tão vasta, a precisão dessas previsões pode impactar diretamente a eficiência produtiva, os custos operacionais e o lucro dos agricultores.
Para enfrentar esse desafio, um problema de negócio foi desenvolvido utilizando dados reais de plantio e produção em várias localidades do Brasil. A partir desses dados, foi proposto um modelo de regressão linear multivariada, uma técnica estatística amplamente utilizada para prever variáveis dependentes com base em várias variáveis independentes. O objetivo central é testar a eficácia desse modelo na previsão do retorno médio agrícola, levando em consideração diferentes formas de aplicação do modelo e estratégias para lidar com dados faltantes, um problema comum em grandes bases de dados.
O uso de técnicas de imputação de dados faltantes é fundamental nesse cenário, já que informações incompletas podem comprometer a precisão das análises e dos modelos preditivos. Assim, explorar metodologias que aprimorem a qualidade dos dados e testem diferentes formas de tratar a ausência de informações se torna uma etapa crucial na construção de soluções eficazes.
Neste artigo, vamos explorar como a combinação de regressão linear multivariada e técnicas avançadas de preenchimento de dados faltantes pode ajudar a aprimorar a previsão do retorno agrícola, contribuindo para o desenvolvimento de estratégias mais robustas e eficazes na gestão do setor agrícola brasileiro.
1.1 Visualizar o Banco Dados
1.2 Análise Exploratória dos Dados
| Name | df_original |
| Number of rows | 9671684 |
| Number of columns | 5 |
| _______________________ | |
| Column type frequency: | |
| character | 2 |
| numeric | 3 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| sigla_uf | 0 | 1 | 2 | 2 | 0 | 27 | 0 |
| produto | 0 | 1 | 3 | 27 | 0 | 38 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| ano | 0 | 1.00 | 1996.50 | 13.28 | 1974 | 1985 | 1996.5 | 2008 | 2019 | ▇▇▇▇▇ |
| area_plantada | 8879431 | 0.08 | 271.77 | 1453.26 | 0 | 3 | 10.0 | 50 | 98400 | ▇▁▁▁▁ |
| valor_producao | 9004581 | 0.07 | 1300.43 | 9268.31 | 0 | 12 | 46.0 | 210 | 1764940 | ▇▁▁▁▁ |
O dataset analisado contém 9.671.684 registros e 5 colunas, sendo duas de tipo texto (caracteres) e três numéricas. As variáveis de texto são “sigla_uf” (com 27 estados únicos representados por suas siglas) e “produto” (com 38 tipos de produtos agrícolas). As variáveis numéricas incluem:
1. Ano: uma variável completa sem valores ausentes, variando entre 1974 e 2019, com média de 1996.
2. Área plantada: apresenta 91,81% de valores ausentes e varia de 0 até 98.400 hectares, com uma média de 272 hectares.
3. Valor de produção: também tem uma taxa alta de valores ausentes (93,10%) e varia de 0 até R\$1.764.940, com uma média de R\$1.300.
O dataset tem como foco dados de produção agrícola por estado, ao longo dos anos, com valores significativos de dados faltantes, principalmente nas variáveis “área plantada” e “valor de produção”.
1.3 Preparação do Banco de Dados
Foram excluídas 9004967 linhas
Foi selecionados um intervalo de tempo de 10 anos
Foram matidas 251579 linhas
Foi selecionados os 5 estados com maior frequência
Foram matidas 150456 linhas
Foi selecionado o produto com maior frequência
Foram matidas 32670 linhas
Resumindo:
- Foram excluidas 9004967 linhas
- Foi selecionado o intervalo de dez anos (2010 - 2019)
- Foi selecionado os 5 estados com maior frequencia (RS, MG, SP, PR, BA)
- Foi selecionado o produto de maior frequencia (Laranja)
1.3.1 Resultado da Seleção do Banco de Dados
| Name | df |
| Number of rows | 32670 |
| Number of columns | 5 |
| _______________________ | |
| Column type frequency: | |
| factor | 3 |
| numeric | 2 |
| ________________________ | |
| Group variables | None |
Variable type: factor
| skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
|---|---|---|---|---|---|
| ano | 0 | 1 | FALSE | 10 | 201: 3447, 201: 3416, 201: 3330, 201: 3320 |
| sigla_uf | 0 | 1 | FALSE | 5 | MG: 9864, SP: 6539, RS: 6509, PR: 4945 |
| produto | 0 | 1 | FALSE | 2 | Lar: 16609, Ban: 16061 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| area_plantada | 0 | 1 | 241.81 | 1063.75 | 1 | 5 | 15 | 65 | 38000 | ▇▁▁▁▁ |
| valor_producao | 0 | 1 | 2825.60 | 12762.87 | 0 | 48 | 158 | 700 | 342871 | ▇▁▁▁▁ |
Após a limpeza do dataset, ele agora contém 16.609 linhas e 5 colunas. Foram aplicados os seguintes filtros:
• Intervalo de anos selecionado: 2010 a 2019.
• Estados com maior frequência selecionados: Rio Grande do Sul (RS), Minas Gerais (MG), São Paulo (SP), Paraná (PR), e Bahia (BA).
• Produto selecionado: Laranja.
O dataset agora contém:
- 3 variáveis categóricas: “ano” (10 anos), “sigla_uf” (5 estados), e “produto” (Laranja).
- 2 variáveis numéricas:
- Área plantada: média de 363 hectares, variando de 1 a 38.000 hectares.
- Valor de produção: média de R$ 3.763, variando de R$ 1 a R$ 342.871.
Esse conjunto de dados concentra informações sobre a produção de laranja nos cinco estados mais representativos do Brasil entre 2010 e 2019.
1.4 Modelo de Regressão Multivariada
Foi realizada uma análise de regressão linear multivariada com o objetivo de prever o valor de produção do produto “Laranja”. A variável dependente foi a coluna valor_producao, enquanto as variáveis independentes incluíram ano, sigla_uf e area_plantada. As variáveis categóricas (sigla_uf) foram transformadas em dummies para serem utilizadas no modelo. O foco foi dado ao produto “Laranja”, excluindo os outros produtos do conjunto de dados para uma análise mais específica.
A regressão linear multivariada foi escolhida por sua capacidade de modelar a relação entre múltiplas variáveis explicativas e o valor de produção, permitindo identificar quais fatores impactam mais o valor de produção da laranja ao longo do tempo.
| Observations | 16609 |
| Dependent variable | valor_producao |
| Type | OLS linear regression |
| F(14,16594) | 2469.6641 |
| R² | 0.6757 |
| Adj. R² | 0.6754 |
| Est. | 2.5% | 97.5% | t val. | p | |
|---|---|---|---|---|---|
| (Intercept) | -2191.1974 | -2739.4388 | -1642.9560 | -7.8341 | 0.0000 |
| ano2011 | 403.5755 | -149.3979 | 956.5488 | 1.4305 | 0.1526 |
| ano2012 | -462.6784 | -1021.4320 | 96.0753 | -1.6231 | 0.1046 |
| ano2013 | -241.2244 | -800.0798 | 317.6310 | -0.8461 | 0.3975 |
| ano2014 | 300.4334 | -261.0364 | 861.9033 | 1.0488 | 0.2943 |
| ano2015 | 363.4574 | -204.0344 | 930.9493 | 1.2554 | 0.2094 |
| ano2016 | 2148.2222 | 1573.8196 | 2722.6248 | 7.3307 | 0.0000 |
| ano2017 | 2432.2581 | 1853.8450 | 3010.6713 | 8.2424 | 0.0000 |
| ano2018 | 3108.8066 | 2531.3969 | 3686.2162 | 10.5533 | 0.0000 |
| ano2019 | 3144.9538 | 2568.0342 | 3721.8734 | 10.6851 | 0.0000 |
| sigla_ufMG | 1648.8749 | 1163.8143 | 2133.9356 | 6.6630 | 0.0000 |
| sigla_ufPR | 1729.1036 | 1210.8514 | 2247.3558 | 6.5397 | 0.0000 |
| sigla_ufRS | 1114.1173 | 639.3154 | 1588.9192 | 4.5994 | 0.0000 |
| sigla_ufSP | 4187.6300 | 3688.8248 | 4686.4353 | 16.4557 | 0.0000 |
| area_plantada | 8.2994 | 8.2025 | 8.3964 | 167.7927 | 0.0000 |
| Standard errors: OLS |
1.5 Resultado do Modelo
O modelo ajustado é uma regressão linear múltipla (OLS) com 16.609 observações e tem como variável dependente o valor de produção de laranja. O modelo explica aproximadamente 67,57% da variação nos dados, com um R² ajustado de 67,54%, indicando que o modelo tem um bom ajuste para os dados.
Principais resultados:
- O intercepto é negativo (-2191.20), mas não tem uma interpretação prática direta no contexto, já que outras variáveis como os anos e estados estão no modelo.
- Os anos de 2016 a 2019 têm um efeito positivo significativo no valor de produção, especialmente 2018 e 2019, com estimativas de 3.109 e 3.145, respectivamente.
- Os estados também influenciam fortemente o valor de produção, com São Paulo apresentando o maior impacto positivo (estimativa de 4.188), seguido de Minas Gerais (1.649), Paraná (1.729) e Rio Grande do Sul (1.114).
- A variável área plantada é altamente significativa e positiva, com uma estimativa de 8.30, indicando que a cada hectare adicional, o valor de produção aumenta em R$8,30.
O modelo mostra que tanto o fator temporal (anos) quanto a localização geográfica (estados) têm efeitos significativos sobre o valor da produção de laranja, além de uma relação clara entre a área plantada e o aumento da produção.
2 Problema Teórico
Como na análise exploratória foi observado grande quantia de dados faltantes, fica o questionamento: Será que esses dados faltantes podem interferir na qualidade do modelo?
2.1 Solução do Problema Teórico
Para solucionar o problema dos dados faltantes, vamos usar o proprio conjunto de dados para simular três situação onde o cientista de dados pode encontar, sendo as naturezas dos dados faltantes.
Existem três formas descritas na literatura das natureza dos dados faltantes:
MCAR (Missing Completely at Random): Os dados faltantes são completamente aleatórios, ou seja, a ausência de um dado não está relacionada a nenhuma outra variável ou ao valor que está faltando.
Exemplo: Dados sobre irrigação estão ausentes porque o coletor perdeu alguns registros por falha técnica, sem relação com outras variáveis agrícolas.
MAR (Missing at Random): Os dados faltantes estão relacionados a outras variáveis observadas no conjunto de dados, mas não ao valor da própria variável faltante. Isso significa que a ausência de dados pode ser prevista ou explicada por outras variáveis disponíveis.
Exemplo: Dados de colheita estão ausentes em fazendas pequenas, mas essa ausência pode ser explicada pela menor capacidade de reportar, não pelo valor da produção.
MNAR (Missing Not at Random): Os dados faltantes estão relacionados ao valor da própria variável ausente. Nesse caso, a ausência de dados não pode ser explicada por outras variáveis no conjunto de dados e pode introduzir um viés significativo.
Exemplo: Fazendas com baixas produções de trigo não reportam seus dados para evitar impacto negativo no mercado, o que está diretamente relacionado ao valor de produção ausente.
Dessa forma, o conjunto de dados agrícolas, previamente limpo e filtrado, será utilizado para simular diferentes naturezas de dados faltantes (MCAR, MAR e MNAR). A simulação permitirá observar o comportamento de cada uma dessas situações de ausência de dados e comparar com os dados reais. O objetivo é identificar qual das naturezas simuladas apresenta um comportamento mais semelhante aos padrões dos dados faltantes observados, fornecendo uma base sólida para a escolha do método de imputação adequado.
2.2 Simulação de Tipos de Dados Faltantes
2.2.1 MCAR
Nessa etapa, simulamos dados faltantes do tipo MCAR (Missing Completely at Random), ou seja, os dados faltantes ocorrem de forma completamente aleatória, sem depender de nenhuma característica observada. A função criar_na_mcar aplica uma proporção definida de valores faltantes (30%) nas colunas especificadas (area_plantada e valor_producao). A omissão dos valores é feita selecionando aleatoriamente uma fração de dados em cada coluna e substituindo-os por NA.
2.2.1.1 Código da simulacão MCAR
library(dplyr)
library(tidyr)
criar_na_mcar <- function(df, colunas_alvo, proporcao) {
# Função interna para criar NAs em uma coluna
criar_na_coluna <- function(coluna) {
n_na <- round(length(coluna) * proporcao)
replace(coluna, sample(seq_along(coluna), n_na), NA)
}
# Aplicar a função para as colunas alvo
df[colunas_alvo] <- lapply(df[colunas_alvo], criar_na_coluna)
return(df)
}
# Aplicar a função otimizada
colunas_alvo <- c("area_plantada", "valor_producao")
proporcao <- 0.3
set.seed(123) # Escolha um número qualquer
df_fake_miss_mcar <- criar_na_mcar(df, colunas_alvo, proporcao)
# Calcular e exibir a proporção de NAs
df_fake_miss_mcar %>%
summarise(across(everything(), ~mean(is.na(.)))) %>%
pivot_longer(everything(), names_to = "variavel", values_to = "proporcao") %>%
arrange(desc(proporcao))2.2.2 MAR
Nessa etapa, simulamos dados faltantes do tipo MAR (Missing at Random), onde a ausência de dados depende das variáveis observadas (sigla_uf, produto e ano). A função criar_na_mar calcula probabilidades baseadas nas frequências dessas variáveis, atribuindo pesos a cada uma (40% para sigla_uf, 40% para produto e 20% para ano). Com base nessas probabilidades, valores faltantes são imputados em area_plantada e valor_producao, de forma que 30% dos dados sejam omitidos, respeitando os pesos configurados para as variáveis observadas.
2.2.2.1 Código da simulacão MAR
criar_na_mar <- function(df, proporcao_total = 0.2, peso_uf = 0.4, peso_produto = 0.4, peso_ano = 0.2) {
# Função para calcular probabilidades baseadas em frequências
calcular_prob <- function(vetor) {
freq <- table(vetor)
prob <- as.numeric(freq) / sum(freq)
names(prob) <- names(freq)
return(prob)
}
# Calcular probabilidades para cada variável
prob_uf <- calcular_prob(df$sigla_uf)
prob_produto <- calcular_prob(df$produto)
prob_ano <- calcular_prob(df$ano)
# Função para imputar NAs em uma coluna específica
imputar_na <- function(df, coluna) {
n_total <- nrow(df)
n_na <- round(n_total * proporcao_total)
# Calcular scores para cada linha e normalizar
df$score <- peso_uf * prob_uf[as.character(df$sigla_uf)] +
peso_produto * prob_produto[as.character(df$produto)] +
peso_ano * prob_ano[as.character(df$ano)]
df$score[is.na(df$score)] <- 0 # Atribuir zero para pontuações não existentes
df$score <- df$score / sum(df$score) # Normalizar os scores para somarem 1
# Selecionar linhas para imputação baseado nos scores
indices_na <- sample(1:n_total, size = n_na, prob = df$score)
df[indices_na, coluna] <- NA
df$score <- NULL # Remover a coluna de score de forma segura
return(df)
}
# Imputar NAs para área plantada e valor de produção
df <- imputar_na(df, "area_plantada")
df <- imputar_na(df, "valor_producao")
return(df)
}
# Exemplo de uso
set.seed(123)
df_fake_miss_mar <- criar_na_mar(df, proporcao_total = 0.3)
# Calcular e exibir a proporção de NAs
df_fake_miss_mar %>%
summarise(across(everything(), ~mean(is.na(.)))) %>%
pivot_longer(everything(), names_to = "variavel", values_to = "proporcao") %>%
arrange(desc(proporcao))2.2.3 MNAR
Nesta etapa, simulamos dados faltantes do tipo MNAR (Missing Not At Random) utilizando duas variáveis adicionais: area_colhida e rendimento_medio. Essas variáveis fazem parte do conjunto de dados original da Pesquisa Agrícola Municipal (PAM), que contém 9.671.684 linhas e 12 colunas. No entanto, não foram incluídas no momento inicial da limpeza de dados para a construção do primeiro modelo. Posteriormente, essas colunas foram adicionadas com o propósito de simular uma natureza MNAR, onde a ausência de dados nas variáveis de interesse area_plantada e valor_producao é influenciada por fatores ocultos. Assim, a inclusão dessas variáveis permitiu a simulação de uma situação em que os dados ausentes não são aleatórios, mas diretamente relacionados a essas novas colunas, refletindo a natureza MNAR de forma precisa. O processo foi realizado em dois passos principais:
area_colhida:
- Para valores extremos de
area_colhida, calculamos a probabilidade de missingness usando a distância escalada da mediana dessa variável.
- Área Plantada (
area_plantada) e Valor de Produção (valor_producao) foram omitidos com base nessa probabilidade ajustada. Ou seja, produtores com áreas colhidas muito acima ou abaixo da mediana têm maior chance de omitir essas informações.
rendimento_medio:
- Da mesma forma, foi calculada a probabilidade de omissão de dados com base nos valores extremos de
rendimento_medio.
- Dados de Valor de Produção foram omitidos para valores extremos de rendimento, simulando que produtores com eficiência de produção fora da norma têm mais probabilidade de ocultar informações. A variável
area_plantadatambém foi afetada de maneira similar.
Após calcular e aplicar as probabilidades de missingness com base nesses fatores ocultos, as colunas rendimento_medio e area_colhida foram removidas do conjunto de dados final, mantendo apenas ano, sigla_uf, produto, area_plantada, e valor_producao. Isso reflete a simulação de dados ausentes influenciados por variáveis que não estão diretamente incluídas na análise, simulando um cenário de MNAR.
Esse método resultou em aproximadamente 30% de dados faltantes nas variáveis de interesse. A proporção exata de dados faltantes foi calculada e exibida para assegurar que a simulação atingiu o nível desejado de omissão.
2.2.3.1 Código da simulacão MNAR
# Passo 1: Selecionar colunas relevantes e remover linhas com valores faltantes
df2 <- read_csv("~/Library/Mobile Documents/com~apple~CloudDocs/PROJETOS/Pos-ESALQ/TCC/projeto/Script/dados_PAM/pesquisa_agricola_municipal.zip") %>% select(ano, sigla_uf, produto, area_plantada, valor_producao, rendimento_medio, area_colhida)
df2 <- df2 %>%
drop_na(ano, sigla_uf, produto, area_plantada, valor_producao)
# Passo 2: Filtrar dados para anos após 2009
df2 <- df2 %>%
filter(ano > 2009)
# Passo 3: Selecionar os 5 estados com o maior número de registros
estados <- df2 %>%
count(sigla_uf, sort = TRUE) %>%
slice_head(n = 5) %>%
pull(sigla_uf)
# Filtrar o dataframe para os estados selecionados
df2 <- df2 %>%
filter(sigla_uf %in% estados)
# Passo 4: Selecionar os 5 produtos mais produzidos
produtos <- df2 %>%
count(produto, sort = TRUE) %>%
slice_head(n = 2) %>%
pull(produto)
# Filtrar o dataframe para os produtos selecionados
df2 <- df2 %>%
filter(produto %in% produtos)
df2 <- df2 %>%
mutate(
sigla_uf = as.factor(sigla_uf),
produto = as.factor(produto),
ano = as.factor(ano)
)
# Função ajustada para calcular a probabilidade de missingness
calc_miss_prob <- function(x) {
median_x <- median(x, na.rm = TRUE)
scaled_dist <- abs(x - median_x) / (max(x, na.rm = TRUE) - min(x, na.rm = TRUE))
pmin(scaled_dist^2 * 10, 1) # Aumentamos o expoente e o fator multiplicativo para aumentar a intensidade
}
# Função ajustada para colocar
introduce_missingness <- function(data, predictor, target1, target2, prob1, prob2) {
data %>%
mutate(
miss_prob = calc_miss_prob({{predictor}}),
{{target1}} := if_else(runif(n()) < miss_prob * prob1, NA_real_, {{target1}}),
{{target2}} := if_else(runif(n()) < miss_prob * prob2, NA_real_, {{target2}})
) %>%
select(-miss_prob)
}
# Introduzir missingness com probabilidades aumentadas para cerca de 30% de dados faltantes
set.seed(123)
df_fake_miss_mnar <- df2 %>%
# Baseado em area_colhida
introduce_missingness(
predictor = area_colhida,
target1 = area_plantada,
target2 = valor_producao,
prob1 = 4, # Aumentado para aumentar o nível de missingness
prob2 = 4 # Aumentado para aumentar o nível de missingness
) %>%
# Baseado em rendimento_medio
introduce_missingness(
predictor = rendimento_medio,
target1 = valor_producao,
target2 = area_plantada,
prob1 = 4, # Aumentado para aumentar o nível de missingness
prob2 = 4 # Aumentado para aumentar o nível de missingness
)
# Passo 8: Remover 'rendimento_medio' do dataframe final
df_fake_miss_mnar <- df_fake_miss_mnar %>%
select(ano, sigla_uf, produto, area_plantada, valor_producao)
# Calcular e exibir a proporção de NAs
df_fake_miss_mnar %>%
summarise(across(everything(), ~mean(is.na(.)))) %>%
pivot_longer(everything(), names_to = "variavel", values_to = "proporcao") %>%
arrange(desc(proporcao))2.3 Validação das Naturezas dos Dados Faltantes Simulados
2.3.1 Análise Visual dos Dados por Ano
Este gráfico apresenta a distribuição da contagem de dados faltantes por ano, sendo o Azul para os dados presentes e o Vermelho para os dados faltantes.
É possivel observar que há uma distribuição uniforme entre os dados faltantes por ano.
2.3.2 Proporção de Dados Faltantes
Nestes gráficos, é demonstrada a proporção dos dados faltantes em cada variável e suas combinações. O gráfico da esquerda mostra a proporção de dados faltantes para cada variável individualmente (area_plantada e valor_producao). Já o gráfico da direita exibe a combinação das colunas com dados faltantes. Ele apresenta as proporções dos casos onde apenas area_plantada possui dados faltantes, onde apenas valor_producao está ausente, onde ambas as variáveis possuem dados faltantes, e, finalmente, onde nenhuma delas tem dados faltantes. Isso permite uma análise detalhada de como os dados faltantes se distribuem nas duas variáveis e a frequência de cada padrão de ausência.
É possivel observar apenas nas variaveis ano, sigla_uf, produto, não apresenta dados falatntes.
2.3.3 Teste de Little (MCAR)
O Teste de Little verifica se a distribuição dos dados faltantes difere de forma significativa entre as diferentes variáveis no conjunto de dados. Ele compara os padrões de missingness com a expectativa sob a hipótese de que os dados são completamente aleatórios.
O teste tem as seguintes hipóteses:
- Hipótese nula (H0): Os dados são MCAR, ou seja, a ausência de dados não depende dos valores das variáveis observadas.
- Hipótese alternativa (H1): Os dados não são MCAR, ou seja, os dados faltantes podem depender dos valores das variáveis observadas.
Interpretação:
Os resultados obtidos do Teste de Little confirmam o comportamento esperado para os três conjuntos de dados simulados. No caso do conjunto de dados MCAR, o valor p foi maior que 0.05 (p = 0.081), confirmando que os dados podem ser considerados como faltantes de forma completamente aleatória, de acordo com a hipótese nula do teste.
Por outro lado, os conjuntos de dados simulados como MAR e MNAR apresentaram valores p menores que 0.05 (p = 0.033 e p = 0, respectivamente), o que rejeita a hipótese de MCAR. Esse comportamento é o esperado, uma vez que esses dados faltantes foram simulados para não serem completamente aleatórios, mas dependentes de outras variáveis, caracterizando corretamente as naturezas MAR e MNAR.
2.3.4 Regressão logística (MAR)
A regressão logística foi utilizada nesta etapa para avaliar se os dados faltantes no conjunto de dados seguem um padrão do tipo MAR (Missing at Random), ou seja, se o comportamento da ausência dos dados tem algum nivel de associação com as variáveis observadas no dataset.
Descrição da Abordagem:
A. Preparação dos Dados e Conversão de Variáveis Categóricas:
Conversão de Variáveis Categóricas em Fatores: As variáveis preditoras sigla_uf (estado), produto (tipo de produto) e ano foram convertidas em fatores para garantir que o modelo de regressão logística as trate corretamente como variáveis categóricas. Isso é essencial para a criação adequada de dummies e para a correta estimativa dos coeficientes no modelo.
Para cada variável de interesse (area_plantada e valor_producao), foi criada uma variável binária chamada is_missing, que indica a presença (0) ou ausência (1) de dados. Esta variável serve como o alvo (variável dependente) do modelo de regressão logística.
O modelo de regressão logística foi ajustado para prever a probabilidade de ausência de dados (is_missing) com base nas variáveis preditoras observadas (sigla_uf, produto, ano). A função glm() ajusta o modelo com a família binomial adequada para dados binários.
Os coeficientes estimados pelo modelo foram convertidos em odds ratio utilizando a função exponencial, o que facilita a interpretação da magnitude e direção das associações entre os preditores e a ausência de dados.
E. Ajuste para Múltiplas Comparações:Para controlar o erro do tipo I devido a múltiplas comparações, os valores-p foram ajustados usando o método de Bonferroni. Isso torna os testes estatísticos mais rigorosos e reduz a probabilidade de falsos positivos.
Interpretação dos Resultados:Para cada variável alvo, os coeficientes dos preditores foram analisados quanto à sua significância estatística após o ajuste dos valores-p.
- Critério de Significância: Se uma ou mais variáveis preditoras apresentarem valores-p ajustados menores que 0,05, isso fornece evidências de que a ausência de dados está associada às variáveis observadas, suportando a hipótese de que os dados faltantes seguem um padrão MAR.
- Considerações sobre a Ausência de Significância: Se nenhuma variável preditora for significativamente associada à ausência de dados, isso não necessariamente implica que os dados não sejam MAR. Pode ser necessário considerar outras variáveis preditoras ou avaliar o poder estatístico do modelo.
Visualização com o Forest Plot:
Foi gerado um gráfico do tipo Forest Plot para cada variável alvo, mostrando os odds ratio ajustados e seus intervalos de confiança de 95%. Esse gráfico facilita a visualização da força e direção das associações entre as variáveis preditoras e a ausência de dados.
- Interpretação Visual: Valores de odds ratio maiores que 1 indicam que a presença da categoria da variável preditora está associada a uma maior probabilidade de ausência de dados na variável alvo, enquanto valores menores que 1 indicam o contrário.
- A função
executar_analise_marfoi utilizada para automatizar o processo de análise para cada variável alvo (area_plantadaevalor_producao), permitindo uma comparação consistente dos padrões de dados faltantes entre elas.
Resultados Consolidados: Para cada variável alvo, foram gerados tabelas de resultados, gráficos e interpretações que facilitam a compreensão e comparação dos padrões de missingness.
Considerações Adicionais:
- Reprodutibilidade: Foi estabelecida uma semente aleatória com
set.seed()para garantir a reprodutibilidade dos resultados.
- Verificação de Suposições: Foram realizadas verificações para assegurar que o modelo é adequado, incluindo a checagem de multicolinearidade entre variáveis preditoras e a avaliação de possíveis categorias com poucos casos.
- Documentação e Comentários: O código foi enriquecido com comentários detalhados para facilitar a compreensão e manutenção futura.
2.3.4.1 Função para Análise MAR
library(broom)
validar_mar_regressao_logistica <- function(df, var_alvo, vars_preditoras) {
# Verificar se a variável alvo existe no dataframe
if (!(var_alvo %in% colnames(df))) {
stop(paste("A variável alvo", var_alvo, "não foi encontrada no dataframe."))
}
# Criar variável binária para dados faltantes
df$is_missing <- as.integer(is.na(df[[var_alvo]]))
# Verificar se há dados faltantes suficientes para ajustar o modelo
if (sum(df$is_missing) == 0) {
stop("Nenhum dado faltante foi encontrado na variável alvo.")
} else if (sum(df$is_missing) < 10) {
warning("Poucos dados faltantes na variável alvo. O modelo pode não ser estável.")
}
# Criar fórmula para o modelo
formula <- as.formula(paste("is_missing ~", paste(vars_preditoras, collapse = " + ")))
# Ajustar o modelo de regressão logística
modelo <- glm(formula, data = df, family = binomial)
# Resumo do modelo
resumo <- tidy(modelo) %>%
mutate(
odds_ratio = exp(estimate),
conf.low = exp(estimate - 1.96 * std.error),
conf.high = exp(estimate + 1.96 * std.error),
adj_p.value = p.adjust(p.value, method = "bonferroni"),
significance = case_when(
adj_p.value < 0.001 ~ "***",
adj_p.value < 0.01 ~ "**",
adj_p.value < 0.05 ~ "*",
TRUE ~ ""
)
)
# Criar tabela formatada
tabela <- resumo %>%
select(term, estimate, odds_ratio, conf.low, conf.high, adj_p.value, significance) %>%
mutate(across(where(is.numeric), ~ round(., 3))) %>%
rename(
"Variável" = term,
"Coeficiente" = estimate,
"Odds Ratio" = odds_ratio,
"IC Inferior" = conf.low,
"IC Superior" = conf.high,
"Valor-p Ajustado" = adj_p.value,
"Significância" = significance
)
# Verificar se a tabela foi criada corretamente
if (nrow(tabela) == 0) {
stop("Nenhum resultado foi gerado pelo modelo. Verifique as variáveis preditoras.")
}
# Criar gráfico de forest plot
grafico <- criar_forest_plot(resumo, var_alvo)
# Interpretar resultados
significativos <- resumo %>% filter(term != "(Intercept)", adj_p.value < 0.05)
if (nrow(significativos) > 0) {
interpretacao <- paste0("Algumas variáveis preditoras são significativamente associadas com a\nausência de dados em ", var_alvo,
".\nIsso suporta a hipótese de que os dados se comportam como MAR.")
} else {
interpretacao <- paste0("Nenhuma variável preditora é significativamente associada com a ausência de\ndados em ", var_alvo,
".\nIsso não suporta fortemente a hipótese de que os dados se comportam como MAR.")
}
# Retornar lista com todos os elementos
return(list(
modelo = modelo,
tabela = tabela,
grafico = grafico,
interpretacao = interpretacao
))
}
# Função separada para criação do gráfico de forest plot
criar_forest_plot <- function(resumo, var_alvo) {
ggplot(resumo %>% filter(term != "(Intercept)"), aes(y = term, x = odds_ratio)) +
geom_point() +
geom_errorbarh(aes(xmin = exp(estimate - 1.96 * std.error),
xmax = exp(estimate + 1.96 * std.error)), height = 0.2) +
geom_vline(xintercept = 1, linetype = "dashed", color = "red") +
scale_x_log10() +
labs(title = paste("Forest Plot - Odds Ratios para", var_alvo),
x = "Odds Ratio (escala log)", y = "Variável") +
theme_minimal()
}
# Função para rodar o procedimento de análise e exibição
executar_analise_mar <- function(df, variaveis_alvo, variaveis_preditoras) {
resultados <- list()
for (var_alvo in variaveis_alvo) {
resultado <- validar_mar_regressao_logistica(df, var_alvo, variaveis_preditoras)
resultados[[var_alvo]] <- resultado
cat("Resultados para", var_alvo, ":\n")
cat(resultado$interpretacao, "\n\n")
print(resultado$tabela)
print(resultado$grafico)
}
}2.3.4.2 Resultados da Análise MAR
Área Plantada
Resultados para area_plantada :
Nenhuma variável preditora é significativamente associada com a ausência de
dados em area_plantada.
Isso não suporta fortemente a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -0.878 0.416 0.378 0.457
2 sigla_ufMG 0.034 1.03 0.96 1.12
3 sigla_ufPR 0.02 1.02 0.935 1.11
4 sigla_ufRS 0.051 1.05 0.968 1.14
5 sigla_ufSP 0.099 1.10 1.02 1.20
6 produtoLaranja -0.045 0.956 0.91 1.00
7 ano2011 -0.004 0.996 0.898 1.10
8 ano2012 0.064 1.07 0.961 1.18
9 ano2013 0.035 1.04 0.933 1.15
10 ano2014 -0.047 0.954 0.858 1.06
11 ano2015 -0.014 0.987 0.887 1.10
12 ano2016 -0.032 0.968 0.871 1.08
13 ano2017 0.011 1.01 0.91 1.12
14 ano2018 0.018 1.02 0.917 1.13
15 ano2019 0.063 1.06 0.959 1.18
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Valor de Produção
Resultados para valor_producao :
Nenhuma variável preditora é significativamente associada com a ausência de
dados em valor_producao.
Isso não suporta fortemente a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -0.777 0.46 0.419 0.505
2 sigla_ufMG -0.06 0.942 0.874 1.01
3 sigla_ufPR -0.053 0.948 0.87 1.03
4 sigla_ufRS -0.07 0.932 0.858 1.01
5 sigla_ufSP -0.103 0.902 0.831 0.979
6 produtoLaranja 0.013 1.01 0.965 1.06
7 ano2011 -0.035 0.965 0.87 1.07
8 ano2012 -0.069 0.933 0.841 1.04
9 ano2013 -0.025 0.975 0.879 1.08
10 ano2014 -0.043 0.958 0.862 1.06
11 ano2015 0.05 1.05 0.947 1.17
12 ano2016 -0.034 0.967 0.869 1.08
13 ano2017 -0.032 0.969 0.872 1.08
14 ano2018 0.02 1.02 0.919 1.13
15 ano2019 0.007 1.01 0.907 1.12
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Área Plantada
Resultados para area_plantada :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em area_plantada.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -0.976 0.377 0.343 0.414
2 sigla_ufMG 0.274 1.32 1.22 1.42
3 sigla_ufPR 0.034 1.03 0.946 1.13
4 sigla_ufRS 0.116 1.12 1.03 1.22
5 sigla_ufSP 0.141 1.15 1.06 1.25
6 produtoLaranja 0.035 1.04 0.986 1.09
7 ano2011 0.002 1.00 0.904 1.11
8 ano2012 -0.015 0.985 0.888 1.09
9 ano2013 0.019 1.02 0.919 1.13
10 ano2014 -0.04 0.961 0.866 1.07
11 ano2015 0.015 1.01 0.914 1.13
12 ano2016 -0.083 0.92 0.827 1.02
13 ano2017 -0.126 0.881 0.792 0.98
14 ano2018 -0.07 0.932 0.839 1.04
15 ano2019 -0.016 0.985 0.887 1.09
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Valor de Producão
Resultados para valor_producao :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em valor_producao.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -1.05 0.35 0.318 0.386
2 sigla_ufMG 0.259 1.30 1.20 1.40
3 sigla_ufPR 0.012 1.01 0.926 1.11
4 sigla_ufRS 0.092 1.10 1.01 1.19
5 sigla_ufSP 0.05 1.05 0.967 1.14
6 produtoLaranja 0.078 1.08 1.03 1.14
7 ano2011 0.036 1.04 0.934 1.15
8 ano2012 0.103 1.11 0.998 1.23
9 ano2013 0.012 1.01 0.911 1.12
10 ano2014 0.085 1.09 0.981 1.21
11 ano2015 0.029 1.03 0.926 1.15
12 ano2016 0.017 1.02 0.914 1.13
13 ano2017 0.064 1.07 0.959 1.18
14 ano2018 0.067 1.07 0.962 1.19
15 ano2019 0.097 1.10 0.992 1.22
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Área Plantada
Resultados para area_plantada :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em area_plantada.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -2.15 0.116 0.103 0.13
2 sigla_ufMG 0.035 1.04 0.942 1.14
3 sigla_ufPR 1.03 2.82 2.55 3.11
4 sigla_ufRS -0.38 0.684 0.613 0.762
5 sigla_ufSP 1.66 5.23 4.77 5.74
6 produtoLaranja 0.596 1.81 1.72 1.92
7 ano2011 0.145 1.16 1.02 1.30
8 ano2012 0.246 1.28 1.13 1.44
9 ano2013 0.219 1.24 1.10 1.40
10 ano2014 0.199 1.22 1.08 1.38
11 ano2015 0.174 1.19 1.05 1.34
12 ano2016 0.185 1.20 1.06 1.36
13 ano2017 0.388 1.47 1.31 1.66
14 ano2018 0.343 1.41 1.25 1.59
15 ano2019 0.274 1.32 1.17 1.48
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Valor de Produção
Resultados para valor_producao :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em valor_producao.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -2.00 0.136 0.121 0.152
2 sigla_ufMG -0.091 0.913 0.831 1.00
3 sigla_ufPR 0.957 2.60 2.36 2.87
4 sigla_ufRS -0.543 0.581 0.521 0.647
5 sigla_ufSP 1.54 4.67 4.26 5.12
6 produtoLaranja 0.596 1.82 1.72 1.92
7 ano2011 0.07 1.07 0.952 1.21
8 ano2012 0.247 1.28 1.14 1.44
9 ano2013 0.062 1.06 0.943 1.2
10 ano2014 0.087 1.09 0.967 1.23
11 ano2015 0.043 1.04 0.923 1.18
12 ano2016 0.07 1.07 0.949 1.21
13 ano2017 0.259 1.30 1.15 1.46
14 ano2018 0.344 1.41 1.25 1.59
15 ano2019 0.209 1.23 1.09 1.39
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
2.4 Metodos de Imputação
Após simular os padrões de missingness (MCAR, MAR e MNAR), foram aplicados diferentes métodos de imputação para lidar com os dados ausentes:
NAIVE (Imputação pela Média):
O método NAIVE substitui valores faltantes pela média dos valores observados da mesma variável. Embora simples, pode introduzir viés, pois ignora as relações entre variáveis.
K-NN (K-Nearest Neighbors) — Pacote VIM:
O método K-NN usa as “k” observações mais próximas para imputar valores faltantes, com base na distância entre os dados. Ele captura melhor a estrutura dos dados ao considerar as relações entre variáveis.
MICE (Multiple Imputation by Chained Equations) — Pacote mice:
O MICE gera múltiplas imputações baseadas em diferentes modelos:
Pmm: Usa a correspondência dos valores previstos mais próximos
Midastouch: Utiliza correspondência ponderada para valores previstos, melhorando a precisão do método Pmm
Norm: Imputa via regressão linear bayesiana
Cart: Usa árvores de decisão para prever os valores ausentes
Rf: Utiliza Random Forest para gerar predições a partir de múltiplas árvores
Amelia — Pacote Amelia:
O Amelia aplica máxima verossimilhança para realizar imputação múltipla, capturando relações complexas entre as variáveis.
Random Forest Adaptativo — Pacote missRanger:
O MissRanger combina Random Forest e PMM para imputar valores faltantes, ajustando-se a padrões complexos nos dados.
2.4.1 Implementação dos metodos
Para estimação dos dados faltantes usando o metodo NAIVE, foi imputado a média de cada variavel nos dados faltantes.
Neste método de imputação de dados faltantes, utilizamos o método k-nearest neighbors (k-NN), com o número de vizinhos (k) foi definido como 5. Isso significa que, para cada valor faltante, o algoritmo selecionou as 5 observações mais próximas e usou essas vizinhas para imputar os dados ausentes.
Neste método, utilizamos o Predictive Mean Matching (PMM) para a imputação de dados faltantes. O PMM busca, para cada valor faltante, encontrar as observações cujos valores previstos pelo modelo são semelhantes ao valor previsto para o dado ausente e utiliza esses valores para realizar a imputação. Foram geradas 5 imputações (m = 5) com 5 iterações (maxit = 5), usando o pacote MICE para realizar o procedimento de forma eficiente e controlada.
Neste método, utilizamos o MIDASTouch, aplicado com o pacote MICE. O MIDASTouch é uma variação do método de correspondência preditiva (Predictive Mean Matching), que pondera os valores previstos para melhorar a precisão da imputação. Ele preenche os dados faltantes com base na correspondência dos valores preditos mais próximos, mas com uma ponderação refinada, tornando-o mais robusto para imputações. Assim como nos métodos anteriores, utilizamos 5 imputações (m = 5) e 5 iterações (maxit = 5) para garantir maior estabilidade nas estimativas e assegurar uma boa representatividade dos dados imputados.
MICE aplica esse modelo para prever os valores faltantes com base nas variáveis observadas, incorporando a incerteza inerente ao processo de imputação. Esse método é útil quando se pressupõe que as variáveis seguem uma distribuição normal e se deseja capturar a incerteza associada aos valores imputados. Assim, configuramos 5 imputações (m = 5) e 5 iterações (maxit = 5) para gerar múltiplas imputações e garantir a estabilidade dos resultados.
No método CART (Classification and Regression Trees), utilizamos a técnica de imputação baseada em árvores de decisão. O CART constrói um modelo de árvore, que divide o conjunto de dados em subgrupos com base em variáveis preditoras, para estimar os valores faltantes. Esse método é não paramétrico e é muito eficaz para capturar interações complexas entre variáveis. Com o pacote MICE, aplicamos o método CART para realizar a imputação com 5 iterações (maxit = 5) e 5 conjuntos de dados imputados (m = 5).
No método Random Forest (Floresta Aleatória), utilizamos uma técnica de aprendizado supervisionado baseada em árvores de decisão. O Random Forest cria várias árvores de decisão e combina os resultados de todas elas para melhorar a precisão das previsões e lidar com dados faltantes. A imputação é feita selecionando as previsões de múltiplas árvores e tomando uma média ponderada dos resultados para preencher os valores ausentes. Com o pacote MICE, aplicamos o método Random Forest com 5 iterações (maxit = 5) e 5 conjuntos de dados imputados (m = 5), garantindo a robustez do processo de imputação.
No método Amelia, utilizamos a técnica de imputação por modelos baseados em simulação de variáveis contínuas e categóricas, levando em consideração possíveis limites nos dados. Neste caso, utilizamos o pacote Amelia para realizar a imputação de valores faltantes com limites inferiores definidos para as colunas de area_plantada e valor_producao (ambos com limite mínimo de 0). Esse método é especialmente eficaz para dados temporais, como aqueles organizados por ano, e pode lidar com dados faltantes em múltiplas variáveis simultaneamente. Aplicamos a imputação com 5 conjuntos de dados gerados (m = 5) e processamos em paralelo para otimizar o tempo de execução.
O método MissRanger usa um modelo de Random Forest para imputação de valores faltantes com base em árvores de decisão e combina isso com o método de Predictive Mean Matching (PMM). O número de árvores usadas para a floresta foi definido em 100, enquanto o parâmetro pmm.k = 5 garante que os valores imputados correspondam aos 5 vizinhos mais próximos, ajudando a preservar a variabilidade dos dados imputados.
2.5 Avaliacão do Método de Imputação
Para validar a qualidade dos dados imputados, foi utilizado um modelo de regressão logística generalizada (GLM). Nesse modelo, os dados imputados foram rotulados como “fake” e comparados aos dados originais. O objetivo da regressão foi avaliar a capacidade do modelo de diferenciar entre os dados reais e os dados imputados com base nas variáveis disponíveis.
Após o ajuste do modelo GLM, foi gerada uma curva ROC (Receiver Operating Characteristic) para calcular a AUC (Area Under the Curve). O AUC mede a habilidade do modelo em discriminar entre os dados reais e imputados. A partir do AUC, foi calculado o índice Gini, que é uma métrica amplamente usada para avaliação de modelos preditivos. O índice invertido de Gini foi utilizado para avaliar a “adversarial validation”, ou seja, quanto mais próximo de 0, menor a diferença entre os dados imputados e os reais, sugerindo uma melhor imputação.
Além disso, foi aplicado o teste de Kolmogorov-Smirnov (KS) para comparar as distribuições das variáveis principais (area_plantada e valor_producao) entre os dados imputados e os dados originais. O teste KS avalia se há uma diferença significativa entre as distribuições, com base na estatística D e no valor-p. Para o nosso objetivo, queremos que o valor-p seja maior que 0,05, pois isso indica que não há uma diferença significativa entre as distribuições, sugerindo que os dados imputados e os dados originais têm distribuições semelhantes. Além disso, a estatística D quantifica a diferença máxima entre as distribuições cumulativas: quanto mais próximo de 0 estiver o valor de D, mais parecidas são as distribuições. Portanto, tanto um valor-p maior que 0,05 quanto um valor de D próximo de 0 indicam uma boa similaridade entre os dados imputados e os reais.
Essa combinação de métricas (GLM, curva ROC, índice Gini e teste KS) permitiu uma avaliação robusta da qualidade da imputação, destacando tanto a capacidade de predizer quanto a similaridade entre as distribuições imputadas e originais.
2.5.1 Resultados da Qualidade das Imputações
2.5.1.1 Área Sobre a Curva ROC
2.5.1.2 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.3 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.4 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.259 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.2631 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Naive - MCAR): 0.9939
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.2608 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.2637 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Naive - MAR): 0.9197
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.157 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.1459 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Naive - MNAR): 0.9583
2.5.1.5 Área Sobre a Curva ROC
2.5.1.6 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.7 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.8 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0134 | 5.786e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0133 | 6.104e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (K-NN - MCAR): 0.9884
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0134 | 5.633e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0115 | 2.58e-02 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (K-NN - MAR): 0.9904
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0373 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0575 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (K-NN - MNAR): 0.9149
2.5.1.9 Área Sobre a Curva ROC
2.5.1.10 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.11 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.12 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0213 | 7.27e-07 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0209 | 1.207e-06 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Pmm - MCAR): 1.0054
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0243 | 7.93e-09 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0219 | 3.2e-07 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Pmm - MAR): 1.0072
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0291 | 1.899e-12 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0365 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Pmm - MNAR): 0.9389
2.5.1.13 Área Sobre a Curva ROC
2.5.1.14 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.15 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.16 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.013 | 7.738e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0189 | 1.739e-05 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: MIDASTouch - MCAR): 0.976
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0136 | 4.923e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.019 | 1.439e-05 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: MIDASTouch - MAR): 0.9789
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0351 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0539 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: MIDASTouch - MNAR): 0.9081
2.5.1.17 Área Sobre a Curva ROC
2.5.1.18 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.19 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.20 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.1246 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.1286 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MCAR): 1.004
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.1258 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.1282 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MAR): 0.9945
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0851 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0904 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MNAR): 0.945
2.5.1.21 Área Sobre a Curva ROC
2.5.1.22 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.23 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.24 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0025 | 9.999e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0063 | 5.409e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MCAR): 0.9968
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0038 | 9.727e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0036 | 9.818e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MAR): 0.9987
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0447 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0535 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Norm - MNAR): 0.9169
2.5.1.25 Área Sobre a Curva ROC
2.5.1.26 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.27 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.28 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0112 | 3.389e-02 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0105 | 5.345e-02 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Random Forest - MCAR): 0.9992
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0052 | 7.621e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0129 | 8.584e-03 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Random Forest - MAR): 0.9781
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0584 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.067 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Mice: Random Forest - MNAR): 0.9128
2.5.1.29 Área Sobre a Curva ROC
2.5.1.30 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.31 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.32 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.2144 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.215 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Amelia - MCAR): 0.7304
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.2119 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.2127 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Amelia - MAR): 0.7501
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.1093 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.1017 | 0e+00 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (Amelia - MNAR): 0.9586
2.5.1.33 Área Sobre a Curva ROC
2.5.1.34 Distribuição do Dados Reais e Imputados para Área Plantada
2.5.1.35 Distribuição do Dados Reais e Imputados para Valor de Produção
2.5.1.36 Resultado do Teste de Kolmogorov-Smirnov
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0071 | 3.77e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0077 | 2.899e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (MissRanger - MCAR): 0.9973
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0067 | 4.493e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0085 | 1.845e-01 | Não se rejeita a hipótese nula. Não há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (MissRanger - MAR): 1.0001
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Área Plantada | 0.0197 | 6.135e-06 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
| Variável | Estatística.D | Valor.p | Interpretação | |
|---|---|---|---|---|
| D | Valor de Produção | 0.0297 | 6.213e-13 | Rejeita-se a hipótese nula. Há evidência de diferença significativa entre as distribuições. |
Índice de Dissimilaridade (MissRanger - MNAR): 0.9432
2.6 Resumo dos Resultados
2.6.1 Media e Desvio Padrão da Area Plantada
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 241.81 | 1063.75 | NA | NA |
| Naive | 240.04 | 878.63 | -1.77 | -185.12 |
| K-Nearest Neighbors | 213.56 | 945.97 | -28.25 | -117.78 |
| MICE - PMM | 244.68 | 1045.43 | 2.87 | -18.32 |
| MICE - MIDAS Touch | 221.55 | 977.24 | -20.26 | -86.51 |
| MICE - Norm | 240.16 | 1054.18 | -1.65 | -9.57 |
| MICE - CART | 239.32 | 1054.78 | -2.49 | -8.97 |
| MICE - Random Forest | 216.72 | 956.88 | -25.09 | -106.87 |
| Amelia | 401.95 | 1029.08 | 160.14 | -34.67 |
| MissRanger | 235.85 | 1029.70 | -5.96 | -34.05 |
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 241.81 | 1063.75 | NA | NA |
| Naive | 246.47 | 918.53 | 4.66 | -145.22 |
| K-Nearest Neighbors | 220.70 | 982.73 | -21.11 | -81.02 |
| MICE - PMM | 246.09 | 1071.20 | 4.28 | 7.45 |
| MICE - MIDAS Touch | 233.82 | 1076.79 | -7.99 | 13.04 |
| MICE - Norm | 244.44 | 1094.84 | 2.63 | 31.09 |
| MICE - CART | 248.19 | 1128.02 | 6.38 | 64.27 |
| MICE - Random Forest | 237.17 | 1093.17 | -4.64 | 29.42 |
| Amelia | 389.73 | 1048.55 | 147.92 | -15.20 |
| MissRanger | 233.93 | 1024.51 | -7.88 | -39.24 |
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 241.81 | 1063.75 | NA | NA |
| Naive | 87.04 | 249.57 | -154.77 | -814.18 |
| K-Nearest Neighbors | 101.28 | 284.04 | -140.53 | -779.71 |
| MICE - PMM | 115.28 | 354.40 | -126.53 | -709.35 |
| MICE - MIDAS Touch | 101.87 | 305.56 | -139.94 | -758.19 |
| MICE - Norm | 103.16 | 316.22 | -138.65 | -747.53 |
| MICE - CART | 106.68 | 333.88 | -135.13 | -729.87 |
| MICE - Random Forest | 87.44 | 287.63 | -154.37 | -776.12 |
| Amelia | 132.62 | 298.65 | -109.19 | -765.10 |
| MissRanger | 129.45 | 384.89 | -112.36 | -678.86 |
2.6.2 Media e Desvio Padrão do Valor de Produção
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 2825.60 | 12762.87 | NA | NA |
| Naive | 2845.64 | 10767.38 | 20.04 | -1995.49 |
| K-Nearest Neighbors | 2543.72 | 11678.32 | -281.88 | -1084.55 |
| MICE - PMM | 2854.00 | 12807.24 | 28.40 | 44.37 |
| MICE - MIDAS Touch | 2386.06 | 11437.53 | -439.54 | -1325.34 |
| MICE - Norm | 2761.39 | 12789.69 | -64.21 | 26.82 |
| MICE - CART | 2816.43 | 12881.18 | -9.17 | 118.31 |
| MICE - Random Forest | 2597.02 | 11925.05 | -228.58 | -837.82 |
| Amelia | 4730.98 | 12403.01 | 1905.38 | -359.86 |
| MissRanger | 2788.15 | 12703.94 | -37.45 | -58.93 |
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 2825.60 | 12762.87 | NA | NA |
| Naive | 2851.39 | 10538.58 | 25.79 | -2224.29 |
| K-Nearest Neighbors | 2540.28 | 11471.41 | -285.32 | -1291.46 |
| MICE - PMM | 2877.35 | 12695.51 | 51.75 | -67.36 |
| MICE - MIDAS Touch | 2421.81 | 11408.27 | -403.79 | -1354.60 |
| MICE - Norm | 2788.89 | 12694.50 | -36.71 | -68.37 |
| MICE - CART | 2823.09 | 12658.15 | -2.51 | -104.72 |
| MICE - Random Forest | 2577.41 | 11723.52 | -248.19 | -1039.35 |
| Amelia | 4602.44 | 12380.32 | 1776.84 | -382.55 |
| MissRanger | 2802.61 | 12730.39 | -22.99 | -32.48 |
| Média | Desvio Padrão | Diferença Média | Diferença Desvio Padrão | |
|---|---|---|---|---|
| Dados Originais | 2825.60 | 12762.87 | NA | NA |
| Naive | 883.94 | 2860.12 | -1941.66 | -9902.75 |
| K-Nearest Neighbors | 949.47 | 3083.15 | -1876.13 | -9679.72 |
| MICE - PMM | 1197.72 | 4359.41 | -1627.88 | -8403.46 |
| MICE - MIDAS Touch | 932.25 | 3337.25 | -1893.35 | -9425.62 |
| MICE - Norm | 1057.50 | 3608.03 | -1768.10 | -9154.84 |
| MICE - CART | 1043.51 | 3711.99 | -1782.09 | -9050.88 |
| MICE - Random Forest | 925.05 | 3525.41 | -1900.55 | -9237.46 |
| Amelia | 1494.42 | 3613.03 | -1331.18 | -9149.84 |
| MissRanger | 1248.82 | 4151.53 | -1576.78 | -8611.34 |
2.6.2.1 Tabela de Resumo
3 Escolha do modelo
3.1 Hybrid AHP–TOPSIS-2N method
O método Híbrido AHP–TOPSIS-2N combina o AHP (Analytic Hierarchy Process) e o TOPSIS (Technique for Order of Preference by Similarity to Ideal Solution) com dupla normalização. O AHP define os pesos dos critérios por meio de comparações par a par, e o TOPSIS classifica as alternativas com base em sua proximidade ao ideal, considerando esses pesos.
O Consistency Ratio (CR) do AHP verifica a coerência das comparações, com um valor aceitável de ≤ 0,10. Já o TOPSIS calcula uma proximidade ideal para cada alternativa. A primeira tabela apresenta os resultados após a primeira normalização, enquanto a segunda tabela aplica uma segunda normalização para reforçar a robustez da classificação. Métodos com valores mais altos são mais próximos da solução ideal e são classificados como melhores. Este método é eficaz para priorizar alternativas em cenários de decisão complexos, garantindo consistência e precisão nas escolhas.
Para a aplicação, foram utilizados seis critérios: AUC, Gini, KS-D Área Plantada, log_p_valor Área Plantada, KS-D Valor Produção e log_p_valor Valor Produção. Esses critérios foram organizados em uma matriz de decisão. Os p-valores originalmente apresentados como “< 2.2e-16” foram convertidos para um valor numérico muito pequeno (1e-16) e, em seguida, transformados utilizando o logaritmo negativo de base 10 para melhorar a interpretação e adequação na análise multicritério.
A comparação par a par dos critérios foi realizada na matriz de critérios, atribuindo pesos relativos. O AUC foi considerado o critério mais importante, seguido por Gini, KS-D e os valores log_p_valor. A ordem de importância foi ajustada com base nas comparações de 1 a 7, onde 1 indica igual importância e valores maiores refletem maior importância de um critério sobre outro.
- Todos os critérios (
AUC,Gini,KS-D Área Plantada,log_p_valor Área Plantada,KS-D Valor Produçãoelog_p_valor Valor Produção) foram considerados a serem minimizados (menores valores são melhores).
Essa abordagem visa maximizar a similaridade entre os dados originais e imputados. Ao minimizar métricas como AUC, Gini e KS-D, buscamos reduzir a capacidade de diferenciação entre os conjuntos de dados, indicando maior semelhança. Para os valores log_p_valor, a minimização reflete a busca por maiores p-valores originais (antes da transformação), sugerindo que não há diferenças estatisticamente significativas entre as distribuições.
Essa combinação de critérios e a aplicação do método Híbrido AHP–TOPSIS-2N permitem uma avaliação abrangente e balanceada dos métodos de imputação, priorizando aqueles que promovem maior similaridade entre os dados imputados e os dados originais.
Consistency ratio: 0.0328889
Primeira Normalização
Segunda Normalização
Nos resultados para dados MCAR, o método Hybrid AHP–TOPSIS-2N classificou Mice: Random Forest como o melhor em ambas as normalizações, com valores de 0.975 e 0.975, seguido por MissRanger e Mice: Cart. Mice: Pmm e K-NN apresentaram desempenho intermediário, enquanto Naive e Amelia foram consistentemente os piores, ocupando as últimas posições. Esses resultados indicam que Mice: Random Forest é o método de imputação mais robusto e eficiente para dados MCAR, enquanto Amelia apresentou o pior desempenho.
Consistency ratio: 0.0328889
Primeira Normalização
Segunda Normalização
Nos resultados para imputações MAR, o método Hybrid AHP–TOPSIS-2N classificou MissRanger como o melhor em ambas as normalizações, com valores de 0,974 e 0,973, seguido por Mice: Cart e Mice: Pmm. K-NN e Mice: Random Forest ficaram no grupo intermediário, enquanto Naive e Amelia foram consistentemente os piores, ocupando as últimas posições. Assim, MissRanger se destaca como o método mais robusto para imputação de dados MAR, enquanto Amelia apresentou o desempenho mais fraco.
Consistency ratio: 0.0328889
Primeira Normalização
Segunda Normalização
Nos resultados para imputações MNAR, o método Hybrid AHP–TOPSIS-2N classificou MissRanger como o melhor na primeira normalização, com valor de 0,839, seguido por Mice: Pmm e Mice: Norm. No entanto, na segunda normalização, Amelia e Naive subiram para as primeiras posições, ficando em 1º e 2º lugares, respectivamente, enquanto MissRanger caiu para a 3ª posição. Mice: Random Forest e Mice: Midastouch foram consistentemente os piores, ocupando as últimas posições em ambas as tabelas. Assim, MissRanger inicialmente se destaca como o método mais robusto para imputação MNAR, mas há uma variação significativa no desempenho dos métodos entre as normalizações, com Amelia e Naive mostrando melhor desempenho na segunda normalização.
4 Aplicação da Solução Teórica no Problema de Negócio
No proceeso consiste em filtrar os dados do dataset original para incluir apenas os anos de 2010 a 2019, os estados “RS”, “MG”, “SP”, “PR” e “BA”, e os produtos “Laranja” e “Banana (cacho)”, sem excluir dados faltantes. Em seguida, as variáveis msigla_uf, produto e ano são convertidas para o tipo factor, o que é útil para tratar essas colunas como categorias discretas, facilitando análises estatísticas futuras. Isso prepara o dataset para análises subsequentes, mantendo a integridade dos dados e classificando corretamente as informações.
Foram matidas 56000 linhas
4.1 Análise exploratoria dos dados faltantes reais
4.1.1 Propoção de Dados Faltantes
4.1.2 Análise visual dos dados por ano
Este gráfico apresenta a distribuição da contagem de dados faltantes por ano, sendo o Azul para os dados presentes e o Vermelho para os dados faltantes.
É possivel observar que há uma distribuição uniforme entre os dados faltantes por ano.
4.1.3 Proporção de dados faltantes
Nestes gráficos, é demonstrada a proporção dos dados faltantes em cada variável e suas combinações. O gráfico da esquerda mostra a proporção de dados faltantes para cada variável individualmente (area_plantada e valor_producao). Já o gráfico da direita exibe a combinação das colunas com dados faltantes. Ele apresenta as proporções dos casos onde apenas area_plantada possui dados faltantes, onde apenas valor_producao está ausente, onde ambas as variáveis possuem dados faltantes, e, finalmente, onde nenhuma delas tem dados faltantes. Isso permite uma análise detalhada de como os dados faltantes se distribuem nas duas variáveis e a frequência de cada padrão de ausência.
4.2 Verificação da natureza dos dados faltantes
4.2.1 Teste de Little (MCAR)
Interpetação dos resultados
O Teste de Little foi aplicado ao conjunto de dados reais para avaliar se a ausência de dados pode ser considerada como completamente aleatória (MCAR). Os resultados mostram uma estatística de teste de 128.83 com 11 graus de liberdade e um valor-p de 0, o que indica uma rejeição clara da hipótese nula de que os dados faltantes são completamente aleatórios (MCAR).
Esse resultado sugere que os padrões de ausência de dados nos dados reais não são aleatórios, mas provavelmente estão associados a outras variáveis observadas no conjunto de dados, indicando que os dados são mais compatíveis com as naturezas MAR (Missing at Random) ou MNAR (Missing Not at Random).
4.2.2 Regressão logística (MAR)
4.2.2.1 Área Plantada
Resultados para area_plantada :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em area_plantada.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -0.384 0.681 0.636 0.73
2 sigla_ufMG -0.005 0.995 0.943 1.05
3 sigla_ufPR -0.175 0.839 0.788 0.894
4 sigla_ufRS -0.345 0.708 0.667 0.752
5 sigla_ufSP 0.261 1.30 1.23 1.37
6 produtoLaranja -0.081 0.922 0.892 0.954
7 ano2011 -0.024 0.977 0.905 1.05
8 ano2012 0.069 1.07 0.993 1.16
9 ano2013 0.064 1.07 0.988 1.15
10 ano2014 0.113 1.12 1.04 1.21
11 ano2015 0.203 1.23 1.14 1.32
12 ano2016 0.218 1.24 1.15 1.34
13 ano2017 0.172 1.19 1.10 1.28
14 ano2018 0.149 1.16 1.08 1.25
15 ano2019 0.135 1.14 1.06 1.24
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
4.2.3 Valor de Produção
Resultados para valor_producao :
Algumas variáveis preditoras são significativamente associadas com a
ausência de dados em valor_producao.
Isso suporta a hipótese de que os dados se comportam como MAR.
# A tibble: 15 × 7
Variável Coeficiente `Odds Ratio` `IC Inferior` `IC Superior`
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) -0.386 0.68 0.634 0.728
2 sigla_ufMG -0.007 0.993 0.941 1.05
3 sigla_ufPR -0.178 0.837 0.786 0.891
4 sigla_ufRS -0.348 0.706 0.665 0.75
5 sigla_ufSP 0.26 1.30 1.23 1.37
6 produtoLaranja -0.081 0.922 0.891 0.953
7 ano2011 -0.019 0.981 0.909 1.06
8 ano2012 0.077 1.08 1.00 1.16
9 ano2013 0.069 1.07 0.993 1.16
10 ano2014 0.121 1.13 1.05 1.22
11 ano2015 0.208 1.23 1.14 1.33
12 ano2016 0.225 1.25 1.16 1.35
13 ano2017 0.178 1.20 1.11 1.29
14 ano2018 0.153 1.17 1.08 1.26
15 ano2019 0.14 1.15 1.07 1.24
# ℹ 2 more variables: `Valor-p Ajustado` <dbl>, Significância <chr>
Ao analisar o comportamento dos dados faltantes no banco de dados original, os resultados das regressões logísticas indicam que várias variáveis preditoras estão significativamente associadas à ausência de dados tanto para area_plantada quanto para valor_producao. Isso suporta a hipótese de que os dados faltantes podem seguir uma natureza MAR (Missing at Random), onde a ausência de dados depende de variáveis observadas, como o estado (sigla_uf), o produto (produto) e o ano.
Para area_plantada, estados como Paraná, Rio Grande do Sul, e São Paulo, assim como o produto Laranja, mostraram associação significativa com a ausência de dados, sugerindo que esses fatores influenciam a falta de informações. Além disso, anos como 2015, 2016 e 2017 também apresentaram odds ratios elevados, indicando uma maior probabilidade de dados faltantes nesses períodos.
Da mesma forma, para valor_producao, variáveis como os estados Paraná e Rio Grande do Sul, o produto Laranja e anos específicos (2015 a 2019) também demonstraram associações significativas com a ausência de dados. Esses resultados indicam que a ausência de dados não é completamente aleatória, reforçando a natureza MAR.
Embora os resultados indiquem fortemente que os dados faltantes seguem uma natureza MAR, não é possível excluir completamente a hipótese de que os dados também possam ser MNAR (Missing Not at Random). Isso significa que, além das variáveis observadas, pode haver fatores não capturados que influenciam a ausência de dados. Portanto, métodos de imputação que considerem essa possibilidade de MNAR podem ser necessários para garantir uma análise mais abrangente.
Com base nesses resultados, serão utilizados métodos de imputação mais adequados para dados que seguem essa natureza. Os métodos de imputação selecionados para este cenário incluem o Mice: CART e as MissRanger, pois ambos mostraram bom desempenho na avaliação da imputação dos dados faltantes e são capazes de lidar com padrões de ausência dependentes de variáveis observadas.
:::
5 COMPARAÇÃO ENTRE OS MODELOS.
5.1 Resumo dos modelos
| Observations | 16609 |
| Dependent variable | valor_producao |
| Type | OLS linear regression |
| F(14,16594) | 2469.6641 |
| R² | 0.6757 |
| Adj. R² | 0.6754 |
| Est. | 2.5% | 97.5% | t val. | p | |
|---|---|---|---|---|---|
| (Intercept) | -2191.1974 | -2739.4388 | -1642.9560 | -7.8341 | 0.0000 |
| ano2011 | 403.5755 | -149.3979 | 956.5488 | 1.4305 | 0.1526 |
| ano2012 | -462.6784 | -1021.4320 | 96.0753 | -1.6231 | 0.1046 |
| ano2013 | -241.2244 | -800.0798 | 317.6310 | -0.8461 | 0.3975 |
| ano2014 | 300.4334 | -261.0364 | 861.9033 | 1.0488 | 0.2943 |
| ano2015 | 363.4574 | -204.0344 | 930.9493 | 1.2554 | 0.2094 |
| ano2016 | 2148.2222 | 1573.8196 | 2722.6248 | 7.3307 | 0.0000 |
| ano2017 | 2432.2581 | 1853.8450 | 3010.6713 | 8.2424 | 0.0000 |
| ano2018 | 3108.8066 | 2531.3969 | 3686.2162 | 10.5533 | 0.0000 |
| ano2019 | 3144.9538 | 2568.0342 | 3721.8734 | 10.6851 | 0.0000 |
| sigla_ufMG | 1648.8749 | 1163.8143 | 2133.9356 | 6.6630 | 0.0000 |
| sigla_ufPR | 1729.1036 | 1210.8514 | 2247.3558 | 6.5397 | 0.0000 |
| sigla_ufRS | 1114.1173 | 639.3154 | 1588.9192 | 4.5994 | 0.0000 |
| sigla_ufSP | 4187.6300 | 3688.8248 | 4686.4353 | 16.4557 | 0.0000 |
| area_plantada | 8.2994 | 8.2025 | 8.3964 | 167.7927 | 0.0000 |
| Standard errors: OLS |
| Observations | 28000 |
| Dependent variable | valor_producao |
| Type | OLS linear regression |
| F(14,27985) | 4217.4869 |
| R² | 0.6784 |
| Adj. R² | 0.6783 |
| Est. | 2.5% | 97.5% | t val. | p | |
|---|---|---|---|---|---|
| (Intercept) | -1283.9190 | -1669.7092 | -898.1287 | -6.5231 | 0.0000 |
| ano2011 | 378.7096 | -55.3003 | 812.7195 | 1.7103 | 0.0872 |
| ano2012 | -439.5561 | -873.5723 | -5.5399 | -1.9851 | 0.0471 |
| ano2013 | -185.5119 | -619.5235 | 248.4998 | -0.8378 | 0.4022 |
| ano2014 | 162.8018 | -271.2097 | 596.8134 | 0.7352 | 0.4622 |
| ano2015 | 373.1699 | -60.8404 | 807.1801 | 1.6853 | 0.0919 |
| ano2016 | 1638.7797 | 1204.7579 | 2072.8015 | 7.4008 | 0.0000 |
| ano2017 | 1783.6687 | 1349.6553 | 2217.6821 | 8.0552 | 0.0000 |
| ano2018 | 2420.6246 | 1986.6038 | 2854.6454 | 10.9316 | 0.0000 |
| ano2019 | 2582.1921 | 2148.1786 | 3016.2056 | 11.6614 | 0.0000 |
| sigla_ufMG | 1266.2298 | 958.9213 | 1573.5383 | 8.0762 | 0.0000 |
| sigla_ufPR | 975.6687 | 615.5782 | 1335.7592 | 5.3108 | 0.0000 |
| sigla_ufRS | 444.9443 | 102.6066 | 787.2821 | 2.5475 | 0.0109 |
| sigla_ufSP | 2569.9472 | 2245.2904 | 2894.6040 | 15.5155 | 0.0000 |
| area_plantada | 8.1460 | 8.0779 | 8.2142 | 234.2975 | 0.0000 |
| Standard errors: OLS |
| Observations | 28000 |
| Dependent variable | valor_producao |
| Type | OLS linear regression |
| F(14,27985) | 4450.3524 |
| R² | 0.6901 |
| Adj. R² | 0.6899 |
| Est. | 2.5% | 97.5% | t val. | p | |
|---|---|---|---|---|---|
| (Intercept) | -1764.3943 | -2135.9409 | -1392.8476 | -9.3078 | 0.0000 |
| ano2011 | 274.2772 | -144.5335 | 693.0879 | 1.2836 | 0.1993 |
| ano2012 | -378.5814 | -797.3932 | 40.2304 | -1.7718 | 0.0764 |
| ano2013 | -170.7624 | -589.5727 | 248.0479 | -0.7992 | 0.4242 |
| ano2014 | 26.8446 | -391.9936 | 445.6828 | 0.1256 | 0.9000 |
| ano2015 | 396.1315 | -22.6849 | 814.9479 | 1.8539 | 0.0638 |
| ano2016 | 2122.2093 | 1703.3973 | 2541.0212 | 9.9320 | 0.0000 |
| ano2017 | 2443.4608 | 2024.6505 | 2862.2711 | 11.4355 | 0.0000 |
| ano2018 | 3700.2156 | 3281.2846 | 4119.1467 | 17.3122 | 0.0000 |
| ano2019 | 2333.8263 | 1914.9403 | 2752.7123 | 10.9204 | 0.0000 |
| sigla_ufMG | 1066.4514 | 770.1527 | 1362.7501 | 7.0547 | 0.0000 |
| sigla_ufPR | 1342.4999 | 995.3780 | 1689.6218 | 7.5805 | 0.0000 |
| sigla_ufRS | 668.1134 | 338.3844 | 997.8425 | 3.9715 | 0.0001 |
| sigla_ufSP | 3438.2773 | 3117.2176 | 3759.3370 | 20.9905 | 0.0000 |
| area_plantada | 8.8864 | 8.8085 | 8.9644 | 223.4431 | 0.0000 |
| Standard errors: OLS |
No modelo sem omissão de dados faltantes, foram utilizadas 16.609 observações. O ajuste do modelo apresentou um R² de 67,57%, indicando que 67,57% da variação no valor de produção foi explicada pelas variáveis incluídas. Os anos de 2016 a 2019 mostraram aumentos significativos no valor de produção, com São Paulo (SP) tendo o maior impacto positivo entre os estados (R$4.188,63). A área plantada foi a variável mais significativa, com um impacto de R$8,30 por hectare adicional.
No modelo com imputação via CART, o conjunto de dados foi ampliado para 28.000 observações. O R² foi de 67,84%, refletindo um ajuste semelhante ao modelo sem omissão. Os anos mais recentes, especialmente 2016 a 2019, mostraram aumentos significativos no valor de produção, com destaque para o impacto positivo de São Paulo (R$2.569,95). A área plantada teve um efeito de R$8,15 por hectare.
No modelo com imputação MissRanger, o número de observações também foi de 28.000, e o R² foi ligeiramente superior, com 69,01%, indicando uma melhor capacidade de explicação da variação no valor de produção. Os anos de 2016 e 2018 apresentaram os maiores aumentos no valor de produção, com São Paulo novamente tendo o maior impacto positivo (R$3.438,28). A área plantada foi a variável mais significativa, com um impacto de R$8,89 por hectare adicional.
5.2 Análise de Resíduos (Histograma e Q-Q Plot)
A análise de resíduos é uma etapa crucial na avaliação de um modelo de regressão linear. Os resíduos são as diferenças entre os valores observados da variável dependente e os valores previstos pelo modelo. Examinar esses resíduos nos ajuda a verificar se as premissas do modelo estão sendo atendidas, especialmente a suposição de que os resíduos são distribuídos normalmente com média zero e variância constante.
Histograma dos Resíduos:O histograma dos resíduos é uma representação gráfica que mostra a distribuição dos resíduos. Ele permite visualizar se os resíduos se aproximam de uma distribuição normal.
Como interpretar:
- Forma em sino (normal): Se o histograma apresenta uma forma aproximadamente simétrica e em sino, isso sugere que os resíduos são normalmente distribuídos.
- Assimetria ou picos: Se o histograma mostra assimetrias, picos acentuados ou caudas longas, isso pode indicar que os resíduos não seguem uma distribuição normal, o que pode violar as premissas do modelo.
O Q-Q Plot é um gráfico que compara os quantis dos resíduos observados com os quantis de uma distribuição normal teórica. Se os resíduos forem normalmente distribuídos, os pontos do gráfico deverão alinhar-se próximos a uma linha reta.
Como interpretar:
- Pontos alinhados na linha reta: Indica que os resíduos seguem uma distribuição normal.
- Curvatura nas extremidades: Pode indicar que os resíduos têm caudas mais pesadas ou leves que a normal.
- Padrão em “S”: Sugere que os resíduos apresentam assimetria.
Resumo da Análise de Resíduos dos Três Modelos:
Nos três modelos analisados, foi possível observar comportamentos similares em relação à distribuição dos resíduos, com algumas variações específicas de cada abordagem. Todos os modelos apresentaram resíduos bem concentrados em torno de zero, indicando que eles ajustam bem a maioria das observações. No entanto, em todos os casos, os resíduos não seguem perfeitamente a distribuição normal, especialmente nas extremidades, onde foram detectados outliers.
No modelo com omissão de dados faltantes, o histograma dos resíduos mostrou uma leve concentração de resíduos positivos, sugerindo uma possível superestimação em algumas previsões. O gráfico Q-Q indicou que, embora a maioria dos resíduos seguisse a linha reta teórica, havia desvios significativos nas caudas, o que indica a presença de outliers ou de observações que o modelo não conseguiu capturar adequadamente.
No modelo com imputação MICE-CART, os resíduos também mostraram uma distribuição concentrada em torno de zero, com um comportamento semelhante ao modelo anterior. O gráfico Q-Q novamente destacou desvios nas caudas superiores, revelando que o modelo, assim como o anterior, teve dificuldades em lidar com observações extremas. Isso indica que, embora a imputação tenha permitido incluir mais dados, o ajuste não capturou completamente os outliers.
Por fim, no modelo com imputação MissRanger, o comportamento dos resíduos foi bastante similar. O histograma indicou uma leve assimetria, com resíduos positivos ligeiramente predominantes. No gráfico Q-Q, os resíduos se alinharam bem com a distribuição normal na maior parte dos casos, mas, mais uma vez, ocorreram desvios nas caudas, especialmente nas extremidades superiores, sugerindo dificuldades do modelo em lidar com algumas observações extremas.
Em conclusão, todos os modelos apresentaram uma distribuição geral de resíduos satisfatória, ajustando bem a maioria dos dados, mas com outliers e desvios nas caudas, especialmente para observações mais extremas. Esses resultados sugerem que, independentemente da abordagem de tratamento de dados faltantes, há uma consistência em relação à dificuldade de lidar com observações extremas.
5.3 Testes de Normalidade
O teste de normalidade é utilizado para verificar se os dados seguem uma distribuição normal. Um dos métodos mais utilizados para esse propósito é o Teste de Anderson-Darling. Esse teste avalia a hipótese nula de que os dados seguem uma distribuição normal, comparando a distribuição dos dados com uma distribuição normal teórica.
O teste tem as seguintes hipóteses:
- Hipótese nula (H0): Os dados seguem uma distribuição normal.
- Hipótese alternativa (H1): Os dados não seguem uma distribuição normal.
Os resultados do Teste de Anderson-Darling para os três modelos analisados (omissão de NAs, imputação com MICE CART e imputação com MissRanger) são apresentados na tabela abaixo. A estatística AD mede a discrepância entre a distribuição dos dados e uma distribuição normal teórica, enquanto o valor-p avalia a significância dessa discrepância.
Resultados dos Testes de Normalidade
Com base nos resultados do teste de Anderson-Darling, verificamos que todos os modelos apresentaram estatísticas AD elevadas e valores-p extremamente baixos (3.7e-24). Esses valores indicam que rejeitamos a hipótese nula de normalidade dos resíduos em todos os modelos testados. Isso significa que os resíduos dos modelos não seguem uma distribuição normal.
No modelo com omissão de NAs, a estatística AD foi de 3.062,779, enquanto nos modelos com imputação (MICE CART e MissRanger), os valores foram ainda maiores, com 5.606,099 e 4.909,350, respectivamente. Esses resultados evidenciam uma clara violação da suposição de normalidade dos resíduos em todos os casos. Essa falta de normalidade pode impactar as inferências estatísticas derivadas dos modelos, sugerindo que, independentemente da técnica de imputação utilizada, a suposição de normalidade dos resíduos não foi atendida.
5.4 Homoscedasticidade
A homoscedasticidade é uma das suposições essenciais da regressão linear, que pressupõe que a variância dos erros (resíduos) seja constante em todos os níveis dos valores ajustados. Quando essa suposição é violada, ou seja, quando ocorre heterocedasticidade, isso pode indicar que o modelo não é adequado, e as inferências estatísticas podem ser comprometidas. Para verificar a homoscedasticidade, são analisados os gráficos de Resíduos vs. Valores Ajustados.
No gráfico de Resíduos vs. Valores Ajustados, a homoscedasticidade é indicada pela distribuição aleatória dos resíduos ao redor da linha horizontal (resíduos = 0), sem um padrão claro. A presença de um padrão ou tendência, como uma forma de “funil” nos resíduos, pode indicar heterocedasticidade.
Em cada um dos gráficos, a linha horizontal vermelha na altura de zero é traçada para facilitar a visualização da dispersão dos resíduos. A análise desses gráficos permite verificar se a variância dos resíduos permanece constante, o que confirmaria a homoscedasticidade dos modelos, ou se há indicações de heterocedasticidade que poderiam afetar a qualidade dos ajustes.
A avaliação de homocedasticidade nos três modelos revelou padrões consistentes de heterocedasticidade, ou seja, a variância dos resíduos não é constante ao longo dos valores ajustados.
No modelo com omissão de dados faltantes, o gráfico de resíduos vs. valores ajustados apresentou um padrão de funil, com maior dispersão dos resíduos à medida que os valores ajustados aumentam. Isso indica que o modelo tem maior variabilidade para observações com valores ajustados mais altos, o que sugere heterocedasticidade.
O modelo com imputação MICE-CART apresentou um comportamento similar, com os resíduos concentrados em valores ajustados baixos e uma dispersão crescente à medida que os valores ajustados aumentam. A presença de heterocedasticidade indica que o modelo também tem dificuldades em ajustar adequadamente observações com valores de produção mais elevados.
Por fim, o modelo com imputação MissRanger seguiu o mesmo padrão, com resíduos mais concentrados para valores ajustados menores e maior dispersão em valores mais altos. Isso também indica heterocedasticidade, especialmente para observações extremas.
Em resumo, todos os três modelos apresentam heterocedasticidade, o que pode impactar a precisão das inferências e previsões, especialmente para valores de produção mais elevados.
5.5 Teste de Breusch-Pagan
O Teste de Breusch-Pagan é utilizado para verificar a presença de heterocedasticidade nos resíduos de um modelo de regressão. A heterocedasticidade ocorre quando a variância dos erros não é constante ao longo das observações, o que pode violar as suposições de regressão linear clássica e comprometer a validade das inferências estatísticas.
O teste tem as seguintes hipóteses:
- Hipótese nula (H0): A variância dos resíduos é constante (homocedasticidade).
- Hipótese alternativa (H1): A variância dos resíduos não é constante (heterocedasticidade).
Os resultados do Teste de Breusch-Pagan para os três modelos analisados (omissão de NAs, imputação com MICE CART e imputação com MissRanger) são apresentados na tabela abaixo. A estatística BP avalia a heterocedasticidade nos resíduos, enquanto o valor-p informa se a estatística é significativa.
Resultados dos Testes de Breusch-Pagan
Com base nos resultados do teste de Breusch-Pagan, todos os modelos apresentaram valores-p extremamente baixos (p < 0.05), levando à rejeição da hipótese nula de homocedasticidade. Isso significa que há fortes evidências de heterocedasticidade nos resíduos de todos os modelos analisados.
A heterocedasticidade indica que a variância dos resíduos não é constante, o que pode comprometer a precisão das estimativas dos coeficientes e das inferências estatísticas. Essa questão deve ser corrigida ou considerada em análises futuras para garantir a robustez dos modelos e melhorar a confiabilidade das previsões.
5.6 Teste de Durbin-Watson
O Teste de Durbin-Watson é utilizado para detectar a presença de autocorrelação nos resíduos de um modelo de regressão. A autocorrelação ocorre quando os erros de uma regressão não são independentes, o que pode comprometer a validade das inferências estatísticas, especialmente em séries temporais ou dados correlacionados.
O teste tem as seguintes hipóteses:
- Hipótese nula (H0): Não há autocorrelação entre os resíduos (autocorrelação de ordem 1).
- Hipótese alternativa (H1): Há autocorrelação entre os resíduos.
Os resultados do Teste de Durbin-Watson para os três modelos analisados (omissão de NAs, imputação com MICE CART e imputação com MissRanger) são apresentados na tabela abaixo. A estatística DW indica o nível de autocorrelação nos resíduos, enquanto o valor-p mostra se a autocorrelação é significativa.
Resultados dos Testes de Durbin-Watson
Os resultados do teste de Durbin-Watson indicam que, para todos os modelos, os valores-p são menores que 0,05, o que nos leva a rejeitar a hipótese nula de ausência de autocorrelação dos resíduos. No modelo com omissão de NAs, a estatística DW foi de 1,9215 (p = 1,80e-07), indicando uma autocorrelação significativa nos resíduos. Da mesma forma, os modelos com imputação (MICE CART e MissRanger) apresentaram estatísticas DW de 1,9489 (p = 8,12e-06) e 1,9356 (p = 2,87e-08), respectivamente, também sugerindo a presença de autocorrelação nos resíduos.
Esses resultados indicam que, em todos os modelos, há evidências de autocorrelação residual, o que pode afetar a validade das inferências estatísticas e a eficiência dos estimadores. Isso sugere que, independentemente da técnica de imputação utilizada, a suposição de independência dos resíduos foi violada em todos os métodos testados.
5.7 AIC e BIC
Os critérios de informação AIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion) são utilizados para comparar a qualidade de diferentes modelos de regressão. Ambos os critérios penalizam a complexidade do modelo, preferindo modelos mais simples que ainda ajustem bem os dados. O AIC mede a qualidade do ajuste do modelo, enquanto o BIC adiciona uma penalização mais forte para modelos com mais parâmetros.
O cálculo dos critérios segue as seguintes interpretações:
- AIC: Modelos com valores de AIC menores são preferíveis, pois indicam um melhor equilíbrio entre qualidade de ajuste e complexidade do modelo.
- BIC: Similar ao AIC, modelos com BIC menores são preferíveis, com uma penalização maior para modelos com mais parâmetros. O BIC é mais conservador que o AIC, favorecendo modelos mais simples.
Os resultados dos critérios AIC e BIC para os três modelos analisados (omissão de NAs, imputação com MICE CART e imputação com MissRanger) são apresentados na tabela abaixo.
Interpretação:
Com base nos valores de AIC e BIC, o modelo de Omissão de NAs apresentou os menores valores (AIC = 347603,6 e BIC = 347727,1), sugerindo que este modelo oferece o melhor equilíbrio entre qualidade de ajuste e simplicidade em comparação com os modelos de imputação. Isso indica que o modelo com omissão de dados faltantes pode ser mais eficiente em termos de ajuste, apesar da exclusão de observações.
Com base nos valores de AIC e BIC, o modelo de Omissão de NAs apresentou os menores valores (AIC = 347603,6 e BIC = 347727,1), sugerindo que este modelo oferece o melhor equilíbrio entre qualidade de ajuste e simplicidade em comparação com os modelos de imputação. Isso indica que o modelo com omissão de dados faltantes pode ser mais eficiente em termos de ajuste, apesar da exclusão de observações.
5.8 Análise Gráfica dos Valores Ajustados
A análise gráfica dos valores ajustados vs. valores observados é uma etapa importante na avaliação da qualidade do ajuste de um modelo de regressão. Esse tipo de gráfico permite visualizar como os valores previstos pelo modelo se comparam aos valores reais observados, fornecendo uma indicação da precisão do ajuste. Um bom ajuste deve apresentar os pontos próximos da linha de identidade, ou seja, uma linha com inclinação igual a 1 e intercepto em 0, que representa a situação ideal onde os valores ajustados são exatamente iguais aos valores observados.
Nos gráficos, os valores ajustados (resultantes do modelo de regressão) são plotados no eixo x, enquanto os valores observados (dados reais de valor_producao) são plotados no eixo y. A linha vermelha representa a linha de identidade (inclinação = 1, intercepto = 0), que é o ponto de referência ideal para avaliar o quão bem os valores ajustados se alinham com os valores observados.
Se os pontos estiverem próximos da linha vermelha, isso indica que o modelo está ajustando bem os dados, ou seja, os valores ajustados estão próximos dos valores observados. No entanto, grandes desvios dessa linha podem indicar problemas no ajuste, como viés ou imprecisão do modelo. A dispersão dos pontos em torno da linha ajuda a visualizar as discrepâncias entre os valores ajustados e os observados em diferentes cenários de imputação e omissão de dados.
A análise gráfica dos valores ajustados para os três modelos — omissão de dados faltantes, imputação MICE-CART, e imputação MissRanger — mostra um padrão consistente em que os modelos ajustam bem os valores de produção menores, com a maioria dos pontos próximos à linha de perfeição. No entanto, à medida que os valores ajustados aumentam, ocorre uma dispersão significativa dos pontos, indicando que todos os modelos apresentam dificuldades em capturar corretamente os valores de produção mais altos.
No modelo com omissão de dados faltantes, os valores maiores mostram uma dispersão considerável em relação à linha de perfeição, sugerindo subestimação ou superestimação dos valores observados mais altos. O modelo de imputação MICE-CART também exibe esse comportamento, com uma dispersão crescente à medida que os valores ajustados aumentam, o que indica erros para valores mais elevados de produção. O modelo com imputação MissRanger segue o mesmo padrão, com boa precisão para os valores menores, mas apresentando uma dispersão significativa para valores ajustados mais altos, confirmando dificuldades em prever com precisão os valores extremos.
Em resumo, todos os modelos ajustam bem os valores de produção mais baixos, mas encontram limitações ao lidar com valores mais altos, apresentando uma dispersão crescente para esses casos.
6 INTERPETAÇÃO DOS RESULTADOS
Resumo Detalhado dos Resultados dos Três Modelos
6.1 Output do Modelo (Summary)
O modelo apresentou um R² de 67,57%, indicando que explica uma boa parte da variação no valor de produção. O intercepto foi negativo, e os anos de 2016 a 2019 tiveram impacto positivo significativo no valor de produção, com São Paulo sendo o estado que apresentou o maior impacto positivo. A área plantada foi altamente significativa, com um impacto de R$8,30 por hectare.
Com um R² de 67,84%, o modelo teve um ajuste levemente superior em relação ao modelo anterior. Novamente, os anos mais recentes tiveram um impacto positivo significativo, com São Paulo sendo o estado de maior influência. A área plantada teve um efeito significativo de R$8,15 por hectare.
Este modelo apresentou o melhor ajuste, com um R² de 69,01%. Os anos de 2016 e 2018 tiveram o maior impacto positivo no valor de produção, e a área plantada foi a variável mais significativa, com um impacto de R$8,89 por hectare adicional.
6.2 QQ Plot
Em todos os três modelos, os QQ Plots mostraram que a maioria dos resíduos seguiu uma distribuição aproximadamente normal, mas houve desvios significativos nas caudas, indicando a presença de outliers e que os resíduos não seguem perfeitamente uma distribuição normal. Isso sugere que, independentemente do método de tratamento de dados faltantes, há problemas em capturar a normalidade nas extremidades.
6.3 Teste de Anderson-Darling
Os resultados do teste de Anderson-Darling mostraram que todos os modelos apresentaram valores-p extremamente baixos (3,7e-24), levando à rejeição da hipótese nula de normalidade dos resíduos. Isso confirma que os resíduos dos três modelos não seguem uma distribuição normal, reforçando as observações dos QQ Plots.
6.4 Homocedasticidade:
Nos três modelos, os gráficos de resíduos vs. valores ajustados revelaram um padrão de heterocedasticidade, com os resíduos mais dispersos conforme os valores ajustados aumentavam. Isso indica que a variância dos erros não é constante, o que pode impactar negativamente a precisão das estimativas dos coeficientes, especialmente para valores de produção mais altos.
6.5 Teste de Breusch-Pagan
O teste de Breusch-Pagan também confirmou a presença de heterocedasticidade nos três modelos, com valores-p extremamente baixos (p < 0,05). Isso reforça a evidência de que a variância dos resíduos não é constante, sugerindo a necessidade de corrigir essa questão para melhorar a qualidade das estimativas.
6.6 Teste de Durbin-Watson
O teste de Durbin-Watson revelou que os modelos com Omissão de NAs e MissRanger apresentaram valores-p baixos, indicando a presença de autocorrelação significativa nos resíduos. O modelo com Imputação MICE-CART, por outro lado, teve um valor-p maior (p = 0,065), sugerindo que não há evidência de autocorrelação significativa nesse caso. A autocorrelação nos resíduos pode impactar a validade das inferências estatísticas.
6.7 AIC e BIC
O modelo com Omissão de Dados Faltantes apresentou os menores valores de AIC (347603,6) e BIC (347727,1), sugerindo que ele oferece o melhor equilíbrio entre simplicidade e qualidade de ajuste. O modelo com imputação MissRanger teve valores de AIC e BIC ligeiramente menores que o MICE-CART, sugerindo uma performance um pouco melhor, mas ambos foram penalizados pela maior complexidade em comparação ao modelo com omissão de NAs.
6.8 Análise Gráfica dos Valores Ajustados
Todos os modelos mostraram um ajuste razoável para os valores de produção menores, com a maioria dos pontos próximos à linha de perfeição. No entanto, à medida que os valores ajustados aumentavam, ocorreu uma dispersão significativa, indicando que todos os modelos tiveram dificuldade em capturar adequadamente os valores de produção mais altos. Isso sugere que os modelos, independentemente do tratamento de dados faltantes, têm limitações ao lidar com observações extremas.
6.9 Resumo Geral
Todos os três modelos apresentam pontos fortes e fracos. O modelo de Omissão de Dados Faltantes teve o melhor desempenho em termos de simplicidade (menores valores de AIC e BIC) e explicou uma boa parte da variação nos dados (R² de 67,57%). No entanto, todos os modelos sofrem com heterocedasticidade, falta de normalidade nos resíduos e dificuldades em prever corretamente os valores de produção mais altos, conforme evidenciado pelos QQ Plots, teste de Anderson-Darling e análise gráfica dos valores ajustados. A presença de autocorrelação nos modelos de Omissão de NAs e MissRanger também aponta para a necessidade de melhorias na modelagem para garantir a precisão das inferências estatísticas.
7 CONCLUSÃO FINAL
A análise realizada com os três modelos — Omissão de Dados Faltantes, Imputação MICE-CART, e Imputação MissRanger — demonstra sua aplicabilidade prática em um cenário de previsão do valor de produção agrícola, especificamente no contexto de dados reais e incompletos. No entanto, ao analisar os resultados sob diferentes aspectos, desde o ajuste do modelo até os testes de qualidade dos resíduos, é possível identificar tanto as forças quanto as limitações de cada abordagem, o que deve ser considerado ao aplicar esses modelos para resolver problemas de negócio reais.
7.1 Ajuste do Modelo e Qualidade Preditiva
Os três modelos apresentaram desempenho razoável em explicar a variabilidade dos dados, com o R² variando entre 61,39% e 69,01%, sugerindo que uma parte significativa do valor de produção pode ser prevista com as variáveis disponíveis, como área plantada, localização geográfica, e ano. Esse nível de explicação é bastante aceitável no contexto de modelos preditivos aplicados a dados reais, especialmente considerando a alta variabilidade nos dados de produção agrícola, que estão sujeitos a inúmeros fatores externos, como clima, variações de solo, e flutuações de mercado.
No entanto, como os gráficos de valores ajustados demonstram, os modelos apresentam limitações quando se trata de prever valores de produção extremos. Essa incapacidade de capturar corretamente os valores mais altos pode resultar em previsões que não sejam confiáveis para grandes produtores ou em anos de pico de produção. Em um cenário real, essa limitação poderia impactar negativamente a capacidade de tomar decisões precisas para grandes operações agrícolas ou para regiões onde os níveis de produção variam significativamente.
7.2 Tratamento de Dados Faltantes e Qualidade do Modelo
Os métodos de imputação, como MICE-CART e MissRanger, permitiram o uso de um conjunto maior de dados, compensando a perda de informações causada pela omissão de dados faltantes. No entanto, os resultados mostram que, embora esses métodos tenham aumentado o tamanho da amostra, eles não resultaram em um ganho significativo de qualidade preditiva em comparação com o modelo de omissão de dados faltantes. Ambos os métodos de imputação apresentaram valores de AIC e BIC mais altos, o que sugere que a complexidade adicionada pelos dados imputados não se traduziu diretamente em uma melhor performance global do modelo.
Na vida real, a escolha entre omitir dados faltantes ou imputá-los depende do contexto. Em um cenário onde se tem poucas observações disponíveis, a imputação pode ser essencial para garantir que o modelo tenha dados suficientes para realizar previsões. No entanto, se a quantidade de dados é grande o suficiente, pode ser mais eficiente, em termos de simplicidade e precisão, optar por um modelo que omita os dados faltantes, como sugerido pelo AIC e BIC menores no modelo com omissão de dados.
7.3 Problemas de Heterocedasticidade e Autocorrelação
Os testes de Breusch-Pagan e Durbin-Watson revelaram a presença de heterocedasticidade em todos os modelos e autocorrelação significativa nos modelos de omissão de dados e MissRanger. Esses problemas indicam que os modelos podem estar violando algumas das suposições fundamentais da regressão linear, o que pode impactar diretamente a validade das estimativas dos coeficientes e a precisão das previsões.
Na prática, a heterocedasticidade significa que a variabilidade do erro aumenta com o nível de produção, o que pode comprometer as previsões para grandes volumes de produção. Em um contexto agrícola, isso é particularmente relevante, pois fazendas maiores e mais produtivas podem sofrer de previsões menos precisas, o que pode afetar decisões críticas como alocação de recursos, previsão de receita, e planejamento de colheitas.
A autocorrelação nos resíduos, por sua vez, sugere que existem padrões temporais ou espaciais nos dados que os modelos não estão capturando adequadamente. No cenário agrícola, isso pode estar relacionado a fatores sazonais ou regionais que não foram incluídos no modelo. Em aplicações reais, a autocorrelação pode resultar em subestimação ou superestimação sistemática das previsões, impactando a eficácia das decisões baseadas nesses modelos.
7.4 Implicações para a Tomada de Decisão
Na vida real, esses modelos podem ser utilizados para prever o valor de produção agrícola e auxiliar na tomada de decisões estratégicas em diferentes regiões e para diferentes tipos de fazendas. O modelo com omissão de dados faltantes, sendo o mais simples e com os melhores indicadores de qualidade (AIC e BIC), pode ser uma boa escolha para cenários onde oshehe dados faltantes não são críticos e os recursos computacionais precisam ser otimizados.
Os modelos com imputação, embora mais complexos, podem ser aplicados em cenários onde o volume de dados disponíveis é limitado ou onde a imputação de dados faltantes é fundamental para obter um conjunto de dados completo. No entanto, as limitações em prever valores extremos de produção e a presença de heterocedasticidade e autocorrelação sugerem que esses modelos podem exigir ajustes ou técnicas adicionais (como modelos robustos ou modelos mistos) para melhorar a precisão e a robustez das previsões.
7.5 Considerações Finais
Os modelos apresentados são úteis para entender a dinâmica da produção agrícola no Brasil e podem ser aplicados em cenários de planejamento estratégico, previsão de receitas, e gestão de recursos agrícolas. No entanto, ajustes adicionais são necessários para lidar com os problemas de heterocedasticidade e autocorrelação observados, especialmente em fazendas com grandes volumes de produção ou em regiões onde os padrões de produção podem ser mais voláteis. Além disso, a complexidade dos modelos de imputação deve ser considerada cuidadosamente, pesando os benefícios do uso de mais dados contra a simplicidade e a performance preditiva de modelos mais enxutos.