| Camada | Descrição | Dimensão | Obs. |
|---|---|---|---|
| Alvo | NO₂ satelital (TROPOMI) | 1.100 m resolução | mol/m² |
| Unidade espacial | Hexágonos H3 (nível 8) | 1299 células | Centroides como pontos alvo |
| Candidatos a sensor | Rede viária (100 m) | 625 pontos | EPSG:32724 (UTM) |
| CRS | EPSG:32724 — UTM Sul | — | Metros, essencial para kernel espacial |
Posicionamento Ótimo de Sensores de Qualidade do Ar
Calibração de Processo Gaussiano com REML e Seleção Greedy por Informação Mútua Ponderada
Resumo
Duas perguntas guiam este trabalho: como o NO₂ urbano se distribui no espaço, e onde colocar sensores de solo para aprender o máximo sobre esse campo com o mínimo de medições. A primeira resposta vem de um Processo Gaussiano calibrado por REML nos dados TROPOMI — kernel Matérn \(\nu = 2{,}5\), comprimento de escala \(ls = 5{,}23\,\text{km}\), \(\text{SNR} \approx 254\). A segunda: seleção greedy por informação mútua ponderada (\(\text{MI}_w\)) com pesos de população, renda e logística, sobre 625 candidatos na malha viária. Com 50 posições avaliadas, 20 sensores capturam 86.7% da cobertura ponderada disponível.
1 Contexto e motivação
Redes de monitoramento convencionais têm um problema estrutural: são caras, esparsas e geograficamente tendenciosas. Estações fixas acabam concentradas em locais de fácil acesso, deixando bairros periféricos e zonas industriais sem cobertura consistente. Dados satelitais como o TROPOMI preenchem esse vácuo parcialmente — cobertura global, mas resolução de ~3,5 km e frequência diária. Úteis para estimar um campo médio, insuficientes para discriminar variações intra-urbanas.
O que fazemos aqui é usar o TROPOMI como ponto de partida para um GP, calibrar a estrutura de correlação espacial com dados reais, e então perguntar ao modelo: dado que vou instalar k sensores de baixo custo, quais localizações reduzem mais a incerteza sobre o campo inteiro? É um problema de design experimental sob restrição, formulado como otimização de redução de variância ponderada por prioridade socioeconômica.
2 Dados
Os 1299 centroides dos hexágonos são o conjunto U — onde queremos reduzir incerteza. Os 625 candidatos são pontos ao longo da rede viária espaçados a cada 100 m, representando locais com infraestrutura acessível para instalação de sensores.
3 Modelo de Processo Gaussiano
O GP modela o NO₂ como um campo aleatório espacialmente correlacionado. Um trend polinomial de grau 3 captura gradientes em macroescala — efeitos de temperatura, proximidade de fontes industriais — e o GP, ajustado sobre o resíduo desse trend, captura o que sobra de estrutura espacial.
3.1 Variograma e seleção do kernel
O variograma cresce suavemente desde a origem, atinge o platô por volta de 10–12 km e se estabiliza entre 0,11 e 0,12. O Matérn \(\nu = 2{,}5\) ajusta bem até ~10 km. No platô, o modelo prevê sill ≈ 0,132 enquanto o empírico para em ≈ 0,117 — uma discrepância marginal, sem efeito prático dado o \(\text{SNR}\) alto.
Com esse comprimento de escala, cada sensor “enxerga” uma região de vários quilômetros. Numa cidade com diâmetro de ~25–30 km, isso significa correlação alta entre candidatos próximos — e é justamente o que explica o padrão espacial dos sensores selecionados, discutido na Seção 4.
3.2 Análise de anisotropia
Apesar dos alcances efetivos serem diferentes em algumas direções, o LRT mostra que não há evidências de anisotropia (p = 0,32). Contudo, mais experimentos devem ser feitos para uma conclusão final
Sem evidência estatística de anisotropia, o modelo isotrópico foi escolhido para a continuação da análise.
3.3 Estimação REML e intervalos de confiança bootstrap
| Parâmetro | Estimativa | IC 95% bootstrap |
|---|---|---|
| Variância do sinal (sv) | 0,13186 | — |
| Comprimento de escala (ls) | 5,23 km | ~4,0 – 6,5 km |
| Nugget | 0,00052 | — |
| SNR = sv/nugget | ≈ 254 | — |
| Modelo | Matérn ν = 2,5 (isotrópico) | — |
Os três parâmetros se explicam bem juntos. \(sv = 0{,}13186\) é a variância total do campo na escala transformada — quase toda ela espacialmente estruturada, não ruído. \(ls = 5{,}23\,\text{km}\) coloca a cidade inteira dentro de poucas vezes o comprimento de escala, o que explica a alta autocorrelação. E o \(\text{nugget} = 0{,}00052\) (\(\text{SNR} \approx 254\)) é basicamente zero: faz sentido, o NO₂ do TROPOMI é uma média temporal e espacial, não uma leitura pontual ruidosa.
O Shapiro-Wilk rejeita normalidade (p ≈ 0), mas o Q-Q mostra desvios só nas caudas extremas — o corpo da distribuição é normal. Para posicionamento de sensores, isso não muda nada: variância posterior e WVR dependem da estrutura de covariância, não da normalidade marginal dos resíduos.
3.4 Diagnósticos do modelo
O LOO dá R² = 0,999 e RMSE = 0,026 — números otimistas por construção, porque com ls grande os vizinhos de cada ponto excluído são fortemente correlacionados com ele. A estimativa honesta vem do CV em blocos: RMSE médio de ~0,063, com variação entre folds de ~0,03 a ~0,10. A queda na performance ao prever folds geograficamente separados mostra o quanto o modelo depende de dados próximos, mas o R² ainda se mantém razoável em todos os folds. O mapa de resíduos LOO não tem padrão geográfico sistemático — nenhuma região está sendo sistematicamente mal predita.
3.5 Mapa de predição — Krigagem Universal
O gradiente leste/sudeste-noroeste é o resultado mais visível: concentrações ~60–70% maiores na porção leste. A incerteza preditiva é quase uniforme no interior da área coberta e só sobe nas bordas — o que se espera de um GP com \(\text{SNR}\) alto e boa cobertura de dados de treino.
4 Posicionamento de sensores
4.1 Formulação do problema
Dados U com 1299 localizações-alvo e S com 625 candidatos, o objetivo é escolher \(A \subseteq S\) de tamanho \(k\) que maximize a informação mútua ponderada (\(\text{MI}_w\)). Regiões de alta densidade, renda baixa ou atividade logística intensa têm mais a perder com falhas de cobertura; cada hexágono entra com peso proporcional à vulnerabilidade local. A cada passo greedy, o sensor adicionado é o que maximiza:
\[\Delta\text{MI}_w(j \mid A) = \sum_{u \in U} w_u \cdot \frac{1}{2}\log\frac{\text{Var}(f_u \mid y_A)}{\text{Var}(f_u \mid y_A) - c_{uj}}, \quad c_{uj} = \frac{\text{Cov}(f_u,\, y_j \mid y_A)^2}{\text{Var}(y_j \mid y_A)}\]
\(c_{uj}\) é a redução de variância em \(u\) ao adicionar \(j\) — pelo Complemento de Schur para gaussianas, coincide com \(\text{Var}(f_u \mid y_A) - \text{Var}(f_u \mid y_{A \cup \{j\}})\). O log captura retorno decrescente: um hexágono já bem coberto contribui menos ao ganho do próximo sensor. Resolver a seleção ótima exatamente é NP-difícil (\(2^{|S|}\) combinações); Krause et al. (2008) mostram que a heurística greedy garante pelo menos \((1 - 1/e)\) do ótimo porque o ganho marginal é submodular.
4.2 Camadas prioritárias
O peso composto combina três camadas com igual contribuição, cada uma normalizada para \([0, 1]\):
\[w_u^{\text{raw}} = \frac{1}{3}\left[\tilde{p}_u + (1 - \tilde{r}_u) + \tilde{\ell}_u\right] + 0{,}01\]
onde \(\tilde{p}_u\) é a população, \(\tilde{r}_u\) a renda média domiciliar (invertida) e \(\tilde{\ell}_u = \widetilde{\log(1 + \#\ell_u)}\) a densidade logística — todos normalizados para \([0, 1]\).
NO₂ é o campo que o GP estima, não um fator de ponderação. Usá-lo em \(w_u\) fecharia um ciclo: o critério priorizaria onde o NO₂ já parece alto segundo o TROPOMI, que reflete o modelo atual, não onde a cobertura faz mais falta. População, renda e logística capturam isso de forma independente.
O piso de \(0{,}01\) evita pesos nulos em hexágonos despovoados. O score final é normalizado para média unitária: \(w_u = w_u^{\text{raw}} / \bar{w}\).
| Componente | Variável | Direção | Justificativa |
|---|---|---|---|
| w_pop | population | ↑ pop → ↑ peso | Mais pessoas afetadas pela qualidade do ar |
| w_vuln | avg_household_income | ↓ renda → ↑ peso | Populações vulneráveis têm menor capacidade de adaptação |
| w_logistics | logistics_count | ↑ logística → ↑ peso | Zonas industriais/logísticas são fontes de emissão de NO₂ |
| Estatística | Valor |
|---|---|
| w mínimo | 0.0361 |
| w médio | 1.0000 |
| w máximo | 1.9726 |
| Desvio padrão | 0.2277 |
| Amplitude relativa max/min | 54.6× |
Com amplitude de 54.6×, o hexágono mais prioritário pesa várias vezes mais que o menos prioritário — suficiente para inclinar a seleção sem concentrar tudo num único bairro.
4.3 Curva \(\text{MI}_w\) — 50 sensores avaliados
| Passo | ΔMI_w marginal | MI_w cumulativa |
|---|---|---|
| Sensor 1 | 75.731 | 75.73 |
| Sensor 5 | 59.998 | 341.56 |
| Sensor 10 | 35.574 | 569.26 |
| Sensor 13 | 24.148 | 646.40 |
| Sensor 20 | 11.383 | 769.01 |
| Sensor 30 | 5.558 | 841.54 |
| Sensor 50 | 1.217 | 887.02 |
O joelho cai em 17 sensores. Os candidatos próximos a hexágonos prioritários se esgotam nos primeiros passos e o ganho marginal despenca depois disso. Com 20 sensores, 86.7% da \(\text{MI}_w\) total já está capturado — 769.0 de 887.0 unidades. Os 30 restantes adicionam 118.0 a mais, com retorno médio por sensor visivelmente menor.
4.4 Mapa dos sensores selecionados
Os primeiros sensores (cores quentes) se concentram no leste/sudeste, onde população densa e alta densidade logística coincidem. O padrão periférico persiste por conta do \(ls\) longo — sensores próximos entre si têm correlação alta e trazem pouca informação incremental, então o algoritmo os espaça ao máximo — mas com inclinação visível em direção às zonas prioritárias. O centro da cidade recebe cobertura progressiva nas etapas seguintes.
4.5 Redução de variância a posteriori
A variância a priori é uniforme — todos os hexágonos têm \(sv = 0{,}13186\), como esperado antes de qualquer medição. Após os 20 sensores, a redução é heterogênea: regiões próximas aos sensores perdem 60–90% da variância, o interior perde menos. O quarto painel é o mais direto: redução de variância já ponderada pela importância de cada hexágono. Verde escuro é alta redução em área prioritária; vermelho é baixa redução ou baixa prioridade.
5 Discussão
5.1 O que \(ls = 5{,}23\,\text{km}\) diz sobre o campo?
Um \(ls\) de ~5 km num contexto urbano significa que o NO₂ satelital varia na escala de bairros, não de quarteirões. Isso é esperado para o TROPOMI (resolução ~3,5 km): a correlação espacial embutida na resolução do sensor inflaciona o \(ls\) estimado. Para sensores de solo com resolução de metros, o \(ls\) seria muito menor e o problema de posicionamento se pareceria mais com um problema de cobertura de área — com muito menos sobreposição de informação entre candidatos próximos.
5.2 Quantos sensores instalar?
O joelho da curva cai em 17 sensores. Com 20 sensores, 86.7% da cobertura ponderada disponível está capturado; os 30 restantes adicionam 13.3% a mais. A decisão de quantos instalar é de custo-benefício, mas o retorno decrescente é claro a partir do sensor 17.
5.3 Limitações
O trend usa população, renda, logística e temperatura, mas não incorpora uso do solo — industrial, residencial, áreas verdes. Zonas industriais e eixos de tráfego pesado criam descontinuidades espaciais que um GP estacionário não captura bem. Isso pode afetar tanto a estimativa dos parâmetros do kernel quanto a ordem de prioridade dos candidatos. A ponderação por prioridade atenua parcialmente essa limitação ao dar mais peso a hexágonos com alta exposição (NO₂) e vulnerabilidade (renda), mas não substitui um modelo de trend com uso do solo explícito.
A malha viária é usada apenas como suporte para os candidatos, não como covariável preditora. Métricas derivadas dela — densidade de vias por hexágono, distância a arteriais, volume de tráfego estimado — provavelmente melhorariam o modelo de trend e a estrutura de covariância.
Os sensores de baixo custo comumente usados em redes urbanas medem múltiplos poluentes: CO, NO₂, O₃, SO₂ e material particulado (PM₂,₅ / PM₁₀). O posicionamento ótimo para NO₂ não é necessariamente ótimo para os demais. Um framework multi-objetivo, ou um GP multivariado sobre os poluentes conjuntamente, seria mais adequado para guiar o deployment de uma rede completa.
O \(ls\) estimado reflete variabilidade sazonal integrada nos dados TROPOMI. Um modelo com componente temporal poderia revelar que o posicionamento ótimo muda por período do dia ou estação — informação relevante se a rede tiver capacidade de reposicionamento.
6 Conclusão
O resultado mais concreto: com 625 candidatos ao longo da malha viária e um GP calibrado nos dados TROPOMI, o algoritmo greedy seleciona 20 localizações que capturam 86.7% da cobertura ponderada disponível. Os 30 sensores adicionais avaliados somam 118.0 unidades a mais — retorno real, mas com custo por unidade de \(\text{MI}_w\) visivelmente maior.
O padrão espacial resultante — cobertura de perímetro antes do interior, com inclinação em direção às zonas leste/sudeste mais vulneráveis — é uma consequência conjunta do \(ls\) longo e dos pesos de prioridade. O \(ls\) longo atenua o viés geográfico que o peso introduziria: com \(ls\) menor (campo mais heterogêneo, como seria para sensores de solo), o posicionamento ponderado produziria diferenças muito mais pronunciadas entre regiões.
As próximas extensões mais urgentes são uso do solo como covariável e um framework multi-poluente para que o posicionamento reflita a capacidade real dos sensores implantados.