2. Procesamiento y limpieza de datos

COMENTARIOS: Corrección en vez de calibración

Menos precision

La corrección no está tomando los datos

Que un modelo se ajuste mejor no significa que sea el mejor

No diferencia de 20 o 30 en el blant almant, hay mucho hiperstacidad aun. Tenemos que ajustar mejor

Corrrelación no es igual a agrimente (concordancia)

Aunto correlación serial – Ver eso.

En ninguna se está tomando en cuenta si hay o no linealidad

Necesitar modelos con Splines Modelos aditivos

Metodología para la limpieza y procesamiento de datos de PM₂.₅ 1. Revisión inicial de datos cada 2 minutos Se revisaron los datos de PM₂.₅ registrados cada 2 minutos para evaluar la cantidad de mediciones disponibles por hora. 2. Filtrado por número mínimo de observaciones Se identificaron 5 horas que no contaban con al menos 22 mediciones (del total de 30 posibles por hora). Estas observaciones fueron eliminadas antes de realizar los promedios horarios, siguiendo el criterio del 75% de datos disponibles por hora. 3. Cálculo del promedio horario de PM₂.₅ A partir de la base de datos filtrada (CampMar1Clean), se construyó una nueva base con promedios horarios de las variables PM₂.₅ (pm2_5_cf_1 y pm2_5_cf_1_b), agrupando por fecha y hora.

2. Evaluación de la coherencia entre canales A y B del sensor

Se calculó la diferencia porcentual horaria entre los valores de los canales A (pm2_5_cf_1) y B (pm2_5_cf_1_b) usando la fórmula: diferencia horaria = ((A − B) × 2) / (A + B) × 100% • Se calcularon dos indicadores dicotómicos: • Si la diferencia porcentual superaba el 70%. • Si la diferencia absoluta entre A y B superaba los 5 µg/m³. 5. Validación de horas según criterios de calidad Se creó una variable de validación que clasifica cada hora como “no pasó” si no cumplía al menos uno de los dos criterios anteriores.

Resultado: 40 observaciones no superaron el control de calidad, lo que representa un 0.48% del total.

3. Definir los modelos que probare

Se definen 24 modelos

4. Proceso de Leave-One-Week-Out Cross

Este enfoque consiste en dividir el conjunto de datos por semanas. En cada iteración, se selecciona una semana específica (semana s) como conjunto de prueba, mientras que todas las demás semanas se utilizan como conjunto de entrenamiento.

El procedimiento sigue estos pasos: 1. Selección del conjunto de prueba: Se deja fuera una semana (semana s) del conjunto de datos para usarla como conjunto de prueba. 2. Entrenamiento del modelo: El modelo se entrena utilizando los datos de las semanas restantes (todas excepto la semana s). 3. Predicción y evaluación: El modelo entrenado realiza predicciones sobre los datos de la semana s (conjunto de prueba), y se calculan los errores de predicción (como RMSE, MAE, Bias, R²). 4. Repetición del proceso: Se repite este procedimiento dejando fuera una semana diferente en cada iteración, hasta que todas las semanas hayan sido utilizadas una vez como conjunto de prueba.

5. Criterios de evaluación del modelo:

Criterios de evaluación del modelo:

Los resultados obtenidos a partir del proceso de validación cruzada Leave-One-Week-Out se evaluaron utilizando los siguientes indicadores:

•   Coeficiente de determinación (R²): Se consideró aceptable un R² igual o superior a 0.75, lo cual indica una correlación casi perfecta entre los datos calibrados del sensor PurpleAir y los valores del monitor de referencia.

•   Errores de predicción (RMSE, MAE y MAPE): Se buscaron valores lo más bajos posible para estos indicadores, ya que reflejan una mayor precisión del modelo al estimar los niveles reales de PM₂.₅.

•   Sesgo (Bias): Se aceptó un sesgo dentro del rango de –5 a 5 μg/m³. Valores fuera de este intervalo indican una sobreestimación o subestimación sistemática que compromete la validez del modelo.

En caso de que varios modelos cumplieran con estos criterios, se priorizó la selección de aquel que maximizara el R² y minimizara simultáneamente el RMSE y el MAE.

RESULTADOS: El mejor modelo es el 7 -> pm25_referencia ~ pm25_sensor + temperatura * humedad

6. Criterios de evaluación del modelo:

Una vez seleccionada la mejor ecuación de calibración mediante el proceso de validación cruzada Leave-One-Week-Out, se procedió a ajustar el modelo sobre el conjunto completo de datos disponibles. El modelo seleccionado fue el modelo 7, que incluye como predictores el valor del sensor PurpleAir, la temperatura, la humedad relativa y la interacción entre estos dos últimos términos.

A partir de esta ecuación, se estimaron las concentraciones calibradas de PM₂.₅ para cada observación en el conjunto de datos, generando una nueva variable llamada pm25_calibrado.

En el gráfico de dispersión muestro la nube de puntos con los valores emparejados entre el PM₂.₅ calibrado y el valor de referencia. Incluí dos líneas: una diagonal punteada que representa la concordancia perfecta (y = x), y una línea de regresión lineal (en azul) que ajusté sobre los datos. La cercanía de los puntos a estas líneas refleja una alta concordancia entre ambos valores, lo que me permite confirmar que el modelo calibrado reproduce de manera precisa las mediciones del equipo de referencia y que puede aplicarse en condiciones reales.

7. Bland-Altman:

Se elabora un gráfico de Bland-Altman para evaluar la concordancia entre las concentraciones de PM₂.₅ corregidas mediante el modelo final de calibración aplicado a los datos del sensor PurpleAir y las mediciones obtenidas con el monitor de referencia utilizado en Lima

RESULTADOS: El modelo de calibración muestra una alta concordancia con el equipo de referencia, con un sesgo bajo y la mayoría de las diferencias esta dentro de los límites aceptables, sin embargo si muestra mayor variabilidad en los extremos altos.

7. HACERLO PARA MONITOR 2 (Prueba):

