Posicionamento Ótimo de Sensores de Qualidade do Ar

Resumo

Duas perguntas guiam este trabalho: como o NO₂ urbano se distribui no espaço, e onde colocar sensores de solo para aprender o máximo sobre esse campo com o mínimo de medições. A primeira resposta vem de um Processo Gaussiano calibrado por REML nos dados TROPOMI — kernel Matérn \(\nu = 2{,}5\), comprimento de escala \(ls = 5{,}23\,\text{km}\), \(\text{SNR} \approx 254\). A segunda: seleção greedy por informação mútua ponderada (\(\text{MI}_w\)) com pesos de população, renda e logística, sobre 625 candidatos na malha viária. Com 50 posições avaliadas, 20 sensores capturam 86.7% da cobertura ponderada disponível.

1 Contexto e motivação

Redes de monitoramento convencionais têm um problema estrutural: são caras, esparsas e geograficamente tendenciosas. Estações fixas acabam concentradas em locais de fácil acesso, deixando bairros periféricos e zonas industriais sem cobertura consistente. Dados satelitais como o TROPOMI preenchem esse vácuo parcialmente — cobertura global, mas resolução de ~3,5 km e frequência diária. Úteis para estimar um campo médio, insuficientes para discriminar variações intra-urbanas.

O que fazemos aqui é usar o TROPOMI como ponto de partida para um GP, calibrar a estrutura de correlação espacial com dados reais, e então perguntar ao modelo: dado que vou instalar k sensores de baixo custo, quais localizações reduzem mais a incerteza sobre o campo inteiro? É um problema de design experimental sob restrição, formulado como otimização de redução de variância ponderada por prioridade socioeconômica.

2 Dados

Camada	Descrição	Dimensão	Obs.
Alvo	NO₂ satelital (TROPOMI)	1.100 m resolução	mol/m²
Unidade espacial	Hexágonos H3 (nível 8)	1299 células	Centroides como pontos alvo
Candidatos a sensor	Rede viária (100 m)	625 pontos	EPSG:32724 (UTM)
CRS	EPSG:32724 — UTM Sul	—	Metros, essencial para kernel espacial

Os 1299 centroides dos hexágonos são o conjunto U — onde queremos reduzir incerteza. Os 625 candidatos são pontos ao longo da rede viária espaçados a cada 100 m, representando locais com infraestrutura acessível para instalação de sensores.

3 Modelo de Processo Gaussiano

O GP modela o NO₂ como um campo aleatório espacialmente correlacionado. Um trend polinomial de grau 3 captura gradientes em macroescala — efeitos de temperatura, proximidade de fontes industriais — e o GP, ajustado sobre o resíduo desse trend, captura o que sobra de estrutura espacial.

3.1 Variograma e seleção do kernel

Variograma dos resíduos REML — Matérn \(\nu = 2{,}5\), \(ls = 5{,}23\,\text{km}\), \(sv = 0{,}13186\), \(\text{nugget} = 0{,}00052\).

O variograma cresce suavemente desde a origem, atinge o platô por volta de 10–12 km e se estabiliza entre 0,11 e 0,12. O Matérn \(\nu = 2{,}5\) ajusta bem até ~10 km. No platô, o modelo prevê sill ≈ 0,132 enquanto o empírico para em ≈ 0,117 — uma discrepância marginal, sem efeito prático dado o \(\text{SNR}\) alto.

\(ls = 5{,}23\,\text{km}\) e o posicionamento

Com esse comprimento de escala, cada sensor “enxerga” uma região de vários quilômetros. Numa cidade com diâmetro de ~25–30 km, isso significa correlação alta entre candidatos próximos — e é justamente o que explica o padrão espacial dos sensores selecionados, discutido na Seção 4.

3.2 Análise de anisotropia

Rose diagram e variogramas direcionais em 12 direções.

Apesar dos alcances efetivos serem diferentes em algumas direções, o LRT mostra que não há evidências de anisotropia (p = 0,32). Contudo, mais experimentos devem ser feitos para uma conclusão final

Sem evidência estatística de anisotropia, o modelo isotrópico foi escolhido para a continuação da análise.

3.3 Estimação REML e intervalos de confiança bootstrap

Comparação iso vs aniso por verossimilhança, ICs bootstrap 95% e Q-Q dos resíduos REML.

Parâmetro	Estimativa	IC 95% bootstrap
Variância do sinal (sv)	0,13186	—
Comprimento de escala (ls)	5,23 km	~4,0 – 6,5 km
Nugget	0,00052	—
SNR = sv/nugget	≈ 254	—
Modelo	Matérn ν = 2,5 (isotrópico)	—

Os três parâmetros se explicam bem juntos. \(sv = 0{,}13186\) é a variância total do campo na escala transformada — quase toda ela espacialmente estruturada, não ruído. \(ls = 5{,}23\,\text{km}\) coloca a cidade inteira dentro de poucas vezes o comprimento de escala, o que explica a alta autocorrelação. E o \(\text{nugget} = 0{,}00052\) (\(\text{SNR} \approx 254\)) é basicamente zero: faz sentido, o NO₂ do TROPOMI é uma média temporal e espacial, não uma leitura pontual ruidosa.

Caudas pesadas nos resíduos

O Shapiro-Wilk rejeita normalidade (p ≈ 0), mas o Q-Q mostra desvios só nas caudas extremas — o corpo da distribuição é normal. Para posicionamento de sensores, isso não muda nada: variância posterior e WVR dependem da estrutura de covariância, não da normalidade marginal dos resíduos.

3.4 Diagnósticos do modelo

Diagnósticos: LOO, Q-Q residuais, RMSE por fold (CV), variograma dos resíduos REML e mapa de resíduos LOO.

O LOO dá R² = 0,999 e RMSE = 0,026 — números otimistas por construção, porque com ls grande os vizinhos de cada ponto excluído são fortemente correlacionados com ele. A estimativa honesta vem do CV em blocos: RMSE médio de ~0,063, com variação entre folds de ~0,03 a ~0,10. A queda na performance ao prever folds geograficamente separados mostra o quanto o modelo depende de dados próximos, mas o R² ainda se mantém razoável em todos os folds. O mapa de resíduos LOO não tem padrão geográfico sistemático — nenhuma região está sendo sistematicamente mal predita.

Atribuição dos folds por grade regular, sem dependência de semente aleatória.

3.5 Mapa de predição — Krigagem Universal

Predição de NO₂ (esquerda) e incerteza preditiva (direita) sobre todos os 1299 hexágonos.

O gradiente leste/sudeste-noroeste é o resultado mais visível: concentrações ~60–70% maiores na porção leste. A incerteza preditiva é quase uniforme no interior da área coberta e só sobe nas bordas — o que se espera de um GP com \(\text{SNR}\) alto e boa cobertura de dados de treino.

4 Posicionamento de sensores

4.1 Formulação do problema

Dados U com 1299 localizações-alvo e S com 625 candidatos, o objetivo é escolher \(A \subseteq S\) de tamanho \(k\) que maximize a informação mútua ponderada (\(\text{MI}_w\)). Regiões de alta densidade, renda baixa ou atividade logística intensa têm mais a perder com falhas de cobertura; cada hexágono entra com peso proporcional à vulnerabilidade local. A cada passo greedy, o sensor adicionado é o que maximiza:

\[\Delta\text{MI}_w(j \mid A) = \sum_{u \in U} w_u \cdot \frac{1}{2}\log\frac{\text{Var}(f_u \mid y_A)}{\text{Var}(f_u \mid y_A) - c_{uj}}, \quad c_{uj} = \frac{\text{Cov}(f_u,\, y_j \mid y_A)^2}{\text{Var}(y_j \mid y_A)}\]

\(c_{uj}\) é a redução de variância em \(u\) ao adicionar \(j\) — pelo Complemento de Schur para gaussianas, coincide com \(\text{Var}(f_u \mid y_A) - \text{Var}(f_u \mid y_{A \cup \{j\}})\). O log captura retorno decrescente: um hexágono já bem coberto contribui menos ao ganho do próximo sensor. Resolver a seleção ótima exatamente é NP-difícil (\(2^{|S|}\) combinações); Krause et al. (2008) mostram que a heurística greedy garante pelo menos \((1 - 1/e)\) do ótimo porque o ganho marginal é submodular.

4.2 Camadas prioritárias

O peso composto combina três camadas com igual contribuição, cada uma normalizada para \([0, 1]\):

\[w_u^{\text{raw}} = \frac{1}{3}\left[\tilde{p}_u + (1 - \tilde{r}_u) + \tilde{\ell}_u\right] + 0{,}01\]

onde \(\tilde{p}_u\) é a população, \(\tilde{r}_u\) a renda média domiciliar (invertida) e \(\tilde{\ell}_u = \widetilde{\log(1 + \#\ell_u)}\) a densidade logística — todos normalizados para \([0, 1]\).

Por que NO₂ não entra nos pesos?

NO₂ é o campo que o GP estima, não um fator de ponderação. Usá-lo em \(w_u\) fecharia um ciclo: o critério priorizaria onde o NO₂ já parece alto segundo o TROPOMI, que reflete o modelo atual, não onde a cobertura faz mais falta. População, renda e logística capturam isso de forma independente.

O piso de \(0{,}01\) evita pesos nulos em hexágonos despovoados. O score final é normalizado para média unitária: \(w_u = w_u^{\text{raw}} / \bar{w}\).

Componente	Variável	Direção	Justificativa
w_pop	population	↑ pop → ↑ peso	Mais pessoas afetadas pela qualidade do ar
w_vuln	avg_household_income	↓ renda → ↑ peso	Populações vulneráveis têm menor capacidade de adaptação
w_logistics	logistics_count	↑ logística → ↑ peso	Zonas industriais/logísticas são fontes de emissão de NO₂

Estatística	Valor
w mínimo	0.0361
w médio	1.0000
w máximo	1.9726
Desvio padrão	0.2277
Amplitude relativa max/min	54.6×

Com amplitude de 54.6×, o hexágono mais prioritário pesa várias vezes mais que o menos prioritário — suficiente para inclinar a seleção sem concentrar tudo num único bairro.

Componentes e peso composto \(w_u\) por hexágono. Da esquerda: população, vulnerabilidade de renda, logística e \(w_u\) médio. Regiões mais escuras = maior peso.

4.3 Curva \(\text{MI}_w\) — 50 sensores avaliados

Esquerda: \(\text{MI}_w\) cumulativa. Direita: ganho marginal \(\Delta\text{MI}_w\) por passo. A linha vermelha marca o joelho; laranja, os 20 selecionados.

Passo	ΔMI_w marginal	MI_w cumulativa
Sensor 1	75.731	75.73
Sensor 5	59.998	341.56
Sensor 10	35.574	569.26
Sensor 13	24.148	646.40
Sensor 20	11.383	769.01
Sensor 30	5.558	841.54
Sensor 50	1.217	887.02

O joelho cai em 17 sensores. Os candidatos próximos a hexágonos prioritários se esgotam nos primeiros passos e o ganho marginal despenca depois disso. Com 20 sensores, 86.7% da \(\text{MI}_w\) total já está capturado — 769.0 de 887.0 unidades. Os 30 restantes adicionam 118.0 a mais, com retorno médio por sensor visivelmente menor.

4.4 Mapa dos sensores selecionados

20 sensores selecionados pelo critério \(\text{MI}_w\) (triângulos) sobre as 50 posições avaliadas, coloridas por ordem de seleção. Vermelho = selecionado cedo; azul = selecionado tarde.

Os primeiros sensores (cores quentes) se concentram no leste/sudeste, onde população densa e alta densidade logística coincidem. O padrão periférico persiste por conta do \(ls\) longo — sensores próximos entre si têm correlação alta e trazem pouca informação incremental, então o algoritmo os espaça ao máximo — mas com inclinação visível em direção às zonas prioritárias. O centro da cidade recebe cobertura progressiva nas etapas seguintes.

4.5 Redução de variância a posteriori

Da esquerda: variância a priori, variância a posteriori (20 sensores), redução não ponderada (%) e redução ponderada por prioridade (redução \(\times\, w_u\)).

A variância a priori é uniforme — todos os hexágonos têm \(sv = 0{,}13186\), como esperado antes de qualquer medição. Após os 20 sensores, a redução é heterogênea: regiões próximas aos sensores perdem 60–90% da variância, o interior perde menos. O quarto painel é o mais direto: redução de variância já ponderada pela importância de cada hexágono. Verde escuro é alta redução em área prioritária; vermelho é baixa redução ou baixa prioridade.

5 Discussão

5.1 O que \(ls = 5{,}23\,\text{km}\) diz sobre o campo?

Um \(ls\) de ~5 km num contexto urbano significa que o NO₂ satelital varia na escala de bairros, não de quarteirões. Isso é esperado para o TROPOMI (resolução ~3,5 km): a correlação espacial embutida na resolução do sensor inflaciona o \(ls\) estimado. Para sensores de solo com resolução de metros, o \(ls\) seria muito menor e o problema de posicionamento se pareceria mais com um problema de cobertura de área — com muito menos sobreposição de informação entre candidatos próximos.

5.2 Quantos sensores instalar?

O joelho da curva cai em 17 sensores. Com 20 sensores, 86.7% da cobertura ponderada disponível está capturado; os 30 restantes adicionam 13.3% a mais. A decisão de quantos instalar é de custo-benefício, mas o retorno decrescente é claro a partir do sensor 17.

5.3 Limitações

Variáveis de uso do solo não incluídas

O trend usa população, renda, logística e temperatura, mas não incorpora uso do solo — industrial, residencial, áreas verdes. Zonas industriais e eixos de tráfego pesado criam descontinuidades espaciais que um GP estacionário não captura bem. Isso pode afetar tanto a estimativa dos parâmetros do kernel quanto a ordem de prioridade dos candidatos. A ponderação por prioridade atenua parcialmente essa limitação ao dar mais peso a hexágonos com alta exposição (NO₂) e vulnerabilidade (renda), mas não substitui um modelo de trend com uso do solo explícito.

A malha viária é usada apenas como suporte para os candidatos, não como covariável preditora. Métricas derivadas dela — densidade de vias por hexágono, distância a arteriais, volume de tráfego estimado — provavelmente melhorariam o modelo de trend e a estrutura de covariância.

Os sensores de baixo custo comumente usados em redes urbanas medem múltiplos poluentes: CO, NO₂, O₃, SO₂ e material particulado (PM₂,₅ / PM₁₀). O posicionamento ótimo para NO₂ não é necessariamente ótimo para os demais. Um framework multi-objetivo, ou um GP multivariado sobre os poluentes conjuntamente, seria mais adequado para guiar o deployment de uma rede completa.

O \(ls\) estimado reflete variabilidade sazonal integrada nos dados TROPOMI. Um modelo com componente temporal poderia revelar que o posicionamento ótimo muda por período do dia ou estação — informação relevante se a rede tiver capacidade de reposicionamento.

6 Conclusão

O resultado mais concreto: com 625 candidatos ao longo da malha viária e um GP calibrado nos dados TROPOMI, o algoritmo greedy seleciona 20 localizações que capturam 86.7% da cobertura ponderada disponível. Os 30 sensores adicionais avaliados somam 118.0 unidades a mais — retorno real, mas com custo por unidade de \(\text{MI}_w\) visivelmente maior.

O padrão espacial resultante — cobertura de perímetro antes do interior, com inclinação em direção às zonas leste/sudeste mais vulneráveis — é uma consequência conjunta do \(ls\) longo e dos pesos de prioridade. O \(ls\) longo atenua o viés geográfico que o peso introduziria: com \(ls\) menor (campo mais heterogêneo, como seria para sensores de solo), o posicionamento ponderado produziria diferenças muito mais pronunciadas entre regiões.

As próximas extensões mais urgentes são uso do solo como covariável e um framework multi-poluente para que o posicionamento reflita a capacidade real dos sensores implantados.