Posicionamento Ótimo de Sensores de Qualidade do Ar

Calibração de Processo Gaussiano com REML e Seleção Greedy por Informação Mútua Ponderada

Data de Publicação

23 de fevereiro de 2026


Resumo

Duas perguntas guiam este trabalho: como o NO₂ urbano se distribui no espaço, e onde colocar sensores de solo para aprender o máximo sobre esse campo com o mínimo de medições. A primeira resposta vem de um Processo Gaussiano calibrado por REML nos dados TROPOMI — kernel Matérn \(\nu = 2{,}5\), comprimento de escala \(ls = 5{,}23\,\text{km}\), \(\text{SNR} \approx 254\). A segunda: seleção greedy por informação mútua ponderada (\(\text{MI}_w\)) com pesos de população, renda e logística, sobre 625 candidatos na malha viária. Com 50 posições avaliadas, 20 sensores capturam 86.7% da cobertura ponderada disponível.


1 Contexto e motivação

Redes de monitoramento convencionais têm um problema estrutural: são caras, esparsas e geograficamente tendenciosas. Estações fixas acabam concentradas em locais de fácil acesso, deixando bairros periféricos e zonas industriais sem cobertura consistente. Dados satelitais como o TROPOMI preenchem esse vácuo parcialmente — cobertura global, mas resolução de ~3,5 km e frequência diária. Úteis para estimar um campo médio, insuficientes para discriminar variações intra-urbanas.

O que fazemos aqui é usar o TROPOMI como ponto de partida para um GP, calibrar a estrutura de correlação espacial com dados reais, e então perguntar ao modelo: dado que vou instalar k sensores de baixo custo, quais localizações reduzem mais a incerteza sobre o campo inteiro? É um problema de design experimental sob restrição, formulado como otimização de redução de variância ponderada por prioridade socioeconômica.


2 Dados

Camada Descrição Dimensão Obs.
Alvo NO₂ satelital (TROPOMI) 1.100 m resolução mol/m²
Unidade espacial Hexágonos H3 (nível 8) 1299 células Centroides como pontos alvo
Candidatos a sensor Rede viária (100 m) 625 pontos EPSG:32724 (UTM)
CRS EPSG:32724 — UTM Sul Metros, essencial para kernel espacial

Os 1299 centroides dos hexágonos são o conjunto U — onde queremos reduzir incerteza. Os 625 candidatos são pontos ao longo da rede viária espaçados a cada 100 m, representando locais com infraestrutura acessível para instalação de sensores.


3 Modelo de Processo Gaussiano

O GP modela o NO₂ como um campo aleatório espacialmente correlacionado. Um trend polinomial de grau 3 captura gradientes em macroescala — efeitos de temperatura, proximidade de fontes industriais — e o GP, ajustado sobre o resíduo desse trend, captura o que sobra de estrutura espacial.

3.1 Variograma e seleção do kernel

Variograma dos resíduos REML — Matérn \(\nu = 2{,}5\), \(ls = 5{,}23\,\text{km}\), \(sv = 0{,}13186\), \(\text{nugget} = 0{,}00052\).

O variograma cresce suavemente desde a origem, atinge o platô por volta de 10–12 km e se estabiliza entre 0,11 e 0,12. O Matérn \(\nu = 2{,}5\) ajusta bem até ~10 km. No platô, o modelo prevê sill ≈ 0,132 enquanto o empírico para em ≈ 0,117 — uma discrepância marginal, sem efeito prático dado o \(\text{SNR}\) alto.

\(ls = 5{,}23\,\text{km}\) e o posicionamento

Com esse comprimento de escala, cada sensor “enxerga” uma região de vários quilômetros. Numa cidade com diâmetro de ~25–30 km, isso significa correlação alta entre candidatos próximos — e é justamente o que explica o padrão espacial dos sensores selecionados, discutido na Seção 4.

3.2 Análise de anisotropia

Rose diagram e variogramas direcionais em 12 direções.

Apesar dos alcances efetivos serem diferentes em algumas direções, o LRT mostra que não há evidências de anisotropia (p = 0,32). Contudo, mais experimentos devem ser feitos para uma conclusão final

Sem evidência estatística de anisotropia, o modelo isotrópico foi escolhido para a continuação da análise.

3.3 Estimação REML e intervalos de confiança bootstrap

Comparação iso vs aniso por verossimilhança, ICs bootstrap 95% e Q-Q dos resíduos REML.
Parâmetro Estimativa IC 95% bootstrap
Variância do sinal (sv) 0,13186
Comprimento de escala (ls) 5,23 km ~4,0 – 6,5 km
Nugget 0,00052
SNR = sv/nugget ≈ 254
Modelo Matérn ν = 2,5 (isotrópico)

Os três parâmetros se explicam bem juntos. \(sv = 0{,}13186\) é a variância total do campo na escala transformada — quase toda ela espacialmente estruturada, não ruído. \(ls = 5{,}23\,\text{km}\) coloca a cidade inteira dentro de poucas vezes o comprimento de escala, o que explica a alta autocorrelação. E o \(\text{nugget} = 0{,}00052\) (\(\text{SNR} \approx 254\)) é basicamente zero: faz sentido, o NO₂ do TROPOMI é uma média temporal e espacial, não uma leitura pontual ruidosa.

Caudas pesadas nos resíduos

O Shapiro-Wilk rejeita normalidade (p ≈ 0), mas o Q-Q mostra desvios só nas caudas extremas — o corpo da distribuição é normal. Para posicionamento de sensores, isso não muda nada: variância posterior e WVR dependem da estrutura de covariância, não da normalidade marginal dos resíduos.

3.4 Diagnósticos do modelo

Diagnósticos: LOO, Q-Q residuais, RMSE por fold (CV), variograma dos resíduos REML e mapa de resíduos LOO.

O LOO dá R² = 0,999 e RMSE = 0,026 — números otimistas por construção, porque com ls grande os vizinhos de cada ponto excluído são fortemente correlacionados com ele. A estimativa honesta vem do CV em blocos: RMSE médio de ~0,063, com variação entre folds de ~0,03 a ~0,10. A queda na performance ao prever folds geograficamente separados mostra o quanto o modelo depende de dados próximos, mas o R² ainda se mantém razoável em todos os folds. O mapa de resíduos LOO não tem padrão geográfico sistemático — nenhuma região está sendo sistematicamente mal predita.

Atribuição dos folds por grade regular, sem dependência de semente aleatória.

3.5 Mapa de predição — Krigagem Universal

Predição de NO₂ (esquerda) e incerteza preditiva (direita) sobre todos os 1299 hexágonos.

O gradiente leste/sudeste-noroeste é o resultado mais visível: concentrações ~60–70% maiores na porção leste. A incerteza preditiva é quase uniforme no interior da área coberta e só sobe nas bordas — o que se espera de um GP com \(\text{SNR}\) alto e boa cobertura de dados de treino.


4 Posicionamento de sensores

4.1 Formulação do problema

Dados U com 1299 localizações-alvo e S com 625 candidatos, o objetivo é escolher \(A \subseteq S\) de tamanho \(k\) que maximize a informação mútua ponderada (\(\text{MI}_w\)). Regiões de alta densidade, renda baixa ou atividade logística intensa têm mais a perder com falhas de cobertura; cada hexágono entra com peso proporcional à vulnerabilidade local. A cada passo greedy, o sensor adicionado é o que maximiza:

\[\Delta\text{MI}_w(j \mid A) = \sum_{u \in U} w_u \cdot \frac{1}{2}\log\frac{\text{Var}(f_u \mid y_A)}{\text{Var}(f_u \mid y_A) - c_{uj}}, \quad c_{uj} = \frac{\text{Cov}(f_u,\, y_j \mid y_A)^2}{\text{Var}(y_j \mid y_A)}\]

\(c_{uj}\) é a redução de variância em \(u\) ao adicionar \(j\) — pelo Complemento de Schur para gaussianas, coincide com \(\text{Var}(f_u \mid y_A) - \text{Var}(f_u \mid y_{A \cup \{j\}})\). O log captura retorno decrescente: um hexágono já bem coberto contribui menos ao ganho do próximo sensor. Resolver a seleção ótima exatamente é NP-difícil (\(2^{|S|}\) combinações); Krause et al. (2008) mostram que a heurística greedy garante pelo menos \((1 - 1/e)\) do ótimo porque o ganho marginal é submodular.

4.2 Camadas prioritárias

O peso composto combina três camadas com igual contribuição, cada uma normalizada para \([0, 1]\):

\[w_u^{\text{raw}} = \frac{1}{3}\left[\tilde{p}_u + (1 - \tilde{r}_u) + \tilde{\ell}_u\right] + 0{,}01\]

onde \(\tilde{p}_u\) é a população, \(\tilde{r}_u\) a renda média domiciliar (invertida) e \(\tilde{\ell}_u = \widetilde{\log(1 + \#\ell_u)}\) a densidade logística — todos normalizados para \([0, 1]\).

Por que NO₂ não entra nos pesos?

NO₂ é o campo que o GP estima, não um fator de ponderação. Usá-lo em \(w_u\) fecharia um ciclo: o critério priorizaria onde o NO₂ já parece alto segundo o TROPOMI, que reflete o modelo atual, não onde a cobertura faz mais falta. População, renda e logística capturam isso de forma independente.

O piso de \(0{,}01\) evita pesos nulos em hexágonos despovoados. O score final é normalizado para média unitária: \(w_u = w_u^{\text{raw}} / \bar{w}\).

Componente Variável Direção Justificativa
w_pop population ↑ pop → ↑ peso Mais pessoas afetadas pela qualidade do ar
w_vuln avg_household_income ↓ renda → ↑ peso Populações vulneráveis têm menor capacidade de adaptação
w_logistics logistics_count ↑ logística → ↑ peso Zonas industriais/logísticas são fontes de emissão de NO₂
Estatística Valor
w mínimo 0.0361
w médio 1.0000
w máximo 1.9726
Desvio padrão 0.2277
Amplitude relativa max/min 54.6×

Com amplitude de 54.6×, o hexágono mais prioritário pesa várias vezes mais que o menos prioritário — suficiente para inclinar a seleção sem concentrar tudo num único bairro.

Componentes e peso composto \(w_u\) por hexágono. Da esquerda: população, vulnerabilidade de renda, logística e \(w_u\) médio. Regiões mais escuras = maior peso.

4.3 Curva \(\text{MI}_w\) — 50 sensores avaliados

Esquerda: \(\text{MI}_w\) cumulativa. Direita: ganho marginal \(\Delta\text{MI}_w\) por passo. A linha vermelha marca o joelho; laranja, os 20 selecionados.
Passo ΔMI_w marginal MI_w cumulativa
Sensor 1 75.731 75.73
Sensor 5 59.998 341.56
Sensor 10 35.574 569.26
Sensor 13 24.148 646.40
Sensor 20 11.383 769.01
Sensor 30 5.558 841.54
Sensor 50 1.217 887.02

O joelho cai em 17 sensores. Os candidatos próximos a hexágonos prioritários se esgotam nos primeiros passos e o ganho marginal despenca depois disso. Com 20 sensores, 86.7% da \(\text{MI}_w\) total já está capturado — 769.0 de 887.0 unidades. Os 30 restantes adicionam 118.0 a mais, com retorno médio por sensor visivelmente menor.

4.4 Mapa dos sensores selecionados

20 sensores selecionados pelo critério \(\text{MI}_w\) (triângulos) sobre as 50 posições avaliadas, coloridas por ordem de seleção. Vermelho = selecionado cedo; azul = selecionado tarde.

Os primeiros sensores (cores quentes) se concentram no leste/sudeste, onde população densa e alta densidade logística coincidem. O padrão periférico persiste por conta do \(ls\) longo — sensores próximos entre si têm correlação alta e trazem pouca informação incremental, então o algoritmo os espaça ao máximo — mas com inclinação visível em direção às zonas prioritárias. O centro da cidade recebe cobertura progressiva nas etapas seguintes.

4.5 Redução de variância a posteriori

Da esquerda: variância a priori, variância a posteriori (20 sensores), redução não ponderada (%) e redução ponderada por prioridade (redução \(\times\, w_u\)).

A variância a priori é uniforme — todos os hexágonos têm \(sv = 0{,}13186\), como esperado antes de qualquer medição. Após os 20 sensores, a redução é heterogênea: regiões próximas aos sensores perdem 60–90% da variância, o interior perde menos. O quarto painel é o mais direto: redução de variância já ponderada pela importância de cada hexágono. Verde escuro é alta redução em área prioritária; vermelho é baixa redução ou baixa prioridade.


5 Discussão

5.1 O que \(ls = 5{,}23\,\text{km}\) diz sobre o campo?

Um \(ls\) de ~5 km num contexto urbano significa que o NO₂ satelital varia na escala de bairros, não de quarteirões. Isso é esperado para o TROPOMI (resolução ~3,5 km): a correlação espacial embutida na resolução do sensor inflaciona o \(ls\) estimado. Para sensores de solo com resolução de metros, o \(ls\) seria muito menor e o problema de posicionamento se pareceria mais com um problema de cobertura de área — com muito menos sobreposição de informação entre candidatos próximos.

5.2 Quantos sensores instalar?

O joelho da curva cai em 17 sensores. Com 20 sensores, 86.7% da cobertura ponderada disponível está capturado; os 30 restantes adicionam 13.3% a mais. A decisão de quantos instalar é de custo-benefício, mas o retorno decrescente é claro a partir do sensor 17.

5.3 Limitações

Variáveis de uso do solo não incluídas

O trend usa população, renda, logística e temperatura, mas não incorpora uso do solo — industrial, residencial, áreas verdes. Zonas industriais e eixos de tráfego pesado criam descontinuidades espaciais que um GP estacionário não captura bem. Isso pode afetar tanto a estimativa dos parâmetros do kernel quanto a ordem de prioridade dos candidatos. A ponderação por prioridade atenua parcialmente essa limitação ao dar mais peso a hexágonos com alta exposição (NO₂) e vulnerabilidade (renda), mas não substitui um modelo de trend com uso do solo explícito.

A malha viária é usada apenas como suporte para os candidatos, não como covariável preditora. Métricas derivadas dela — densidade de vias por hexágono, distância a arteriais, volume de tráfego estimado — provavelmente melhorariam o modelo de trend e a estrutura de covariância.

Os sensores de baixo custo comumente usados em redes urbanas medem múltiplos poluentes: CO, NO₂, O₃, SO₂ e material particulado (PM₂,₅ / PM₁₀). O posicionamento ótimo para NO₂ não é necessariamente ótimo para os demais. Um framework multi-objetivo, ou um GP multivariado sobre os poluentes conjuntamente, seria mais adequado para guiar o deployment de uma rede completa.

O \(ls\) estimado reflete variabilidade sazonal integrada nos dados TROPOMI. Um modelo com componente temporal poderia revelar que o posicionamento ótimo muda por período do dia ou estação — informação relevante se a rede tiver capacidade de reposicionamento.


6 Conclusão

O resultado mais concreto: com 625 candidatos ao longo da malha viária e um GP calibrado nos dados TROPOMI, o algoritmo greedy seleciona 20 localizações que capturam 86.7% da cobertura ponderada disponível. Os 30 sensores adicionais avaliados somam 118.0 unidades a mais — retorno real, mas com custo por unidade de \(\text{MI}_w\) visivelmente maior.

O padrão espacial resultante — cobertura de perímetro antes do interior, com inclinação em direção às zonas leste/sudeste mais vulneráveis — é uma consequência conjunta do \(ls\) longo e dos pesos de prioridade. O \(ls\) longo atenua o viés geográfico que o peso introduziria: com \(ls\) menor (campo mais heterogêneo, como seria para sensores de solo), o posicionamento ponderado produziria diferenças muito mais pronunciadas entre regiões.

As próximas extensões mais urgentes são uso do solo como covariável e um framework multi-poluente para que o posicionamento reflita a capacidade real dos sensores implantados.