2. Procesamiento y limpieza de datos
COMENTARIOS: Corrección en vez de calibración
Menos precision
La corrección no está tomando los datos
Que un modelo se ajuste mejor no significa que sea el mejor
No diferencia de 20 o 30 en el blant almant, hay mucho hiperstacidad
aun. Tenemos que ajustar mejor
Corrrelación no es igual a agrimente (concordancia)
Aunto correlación serial – Ver eso.
En ninguna se está tomando en cuenta si hay o no linealidad
Necesitar modelos con Splines Modelos aditivos
Metodología para la limpieza y procesamiento de datos de PM₂.₅ 1.
Revisión inicial de datos cada 2 minutos Se revisaron los datos de PM₂.₅
registrados cada 2 minutos para evaluar la cantidad de mediciones
disponibles por hora. 2. Filtrado por número mínimo de observaciones Se
identificaron 5 horas que no contaban con al menos 22 mediciones (del
total de 30 posibles por hora). Estas observaciones fueron eliminadas
antes de realizar los promedios horarios, siguiendo el criterio del 75%
de datos disponibles por hora. 3. Cálculo del promedio horario de PM₂.₅
A partir de la base de datos filtrada (CampMar1Clean), se construyó una
nueva base con promedios horarios de las variables PM₂.₅ (pm2_5_cf_1 y
pm2_5_cf_1_b), agrupando por fecha y hora.
2. Evaluación de la coherencia entre canales A y B del sensor
Se calculó la diferencia porcentual horaria entre los valores de los
canales A (pm2_5_cf_1) y B (pm2_5_cf_1_b) usando la fórmula: diferencia
horaria = ((A − B) × 2) / (A + B) × 100% • Se calcularon dos indicadores
dicotómicos: • Si la diferencia porcentual superaba el 70%. • Si la
diferencia absoluta entre A y B superaba los 5 µg/m³. 5. Validación de
horas según criterios de calidad Se creó una variable de validación que
clasifica cada hora como “no pasó” si no cumplía al menos uno de los dos
criterios anteriores.
Resultado: 40 observaciones no superaron el control de calidad, lo
que representa un 0.48% del total.
3. Definir los modelos que probare
Se definen 24 modelos
4. Proceso de Leave-One-Week-Out Cross
Este enfoque consiste en dividir el conjunto de datos por semanas. En
cada iteración, se selecciona una semana específica (semana s) como
conjunto de prueba, mientras que todas las demás semanas se utilizan
como conjunto de entrenamiento.
El procedimiento sigue estos pasos: 1. Selección del conjunto de
prueba: Se deja fuera una semana (semana s) del conjunto de datos para
usarla como conjunto de prueba. 2. Entrenamiento del modelo: El modelo
se entrena utilizando los datos de las semanas restantes (todas excepto
la semana s). 3. Predicción y evaluación: El modelo entrenado realiza
predicciones sobre los datos de la semana s (conjunto de prueba), y se
calculan los errores de predicción (como RMSE, MAE, Bias, R²). 4.
Repetición del proceso: Se repite este procedimiento dejando fuera una
semana diferente en cada iteración, hasta que todas las semanas hayan
sido utilizadas una vez como conjunto de prueba.
5. Criterios de evaluación del modelo:
Criterios de evaluación del modelo:
Los resultados obtenidos a partir del proceso de validación cruzada
Leave-One-Week-Out se evaluaron utilizando los siguientes
indicadores:
• Coeficiente de determinación (R²): Se consideró aceptable un R² igual o superior a 0.75, lo cual indica una correlación casi perfecta entre los datos calibrados del sensor PurpleAir y los valores del monitor de referencia.
• Errores de predicción (RMSE, MAE y MAPE): Se buscaron valores lo más bajos posible para estos indicadores, ya que reflejan una mayor precisión del modelo al estimar los niveles reales de PM₂.₅.
• Sesgo (Bias): Se aceptó un sesgo dentro del rango de –5 a 5 μg/m³. Valores fuera de este intervalo indican una sobreestimación o subestimación sistemática que compromete la validez del modelo.
En caso de que varios modelos cumplieran con estos criterios, se
priorizó la selección de aquel que maximizara el R² y minimizara
simultáneamente el RMSE y el MAE.
RESULTADOS: El mejor modelo es el 7 -> pm25_referencia ~
pm25_sensor + temperatura * humedad
6. Criterios de evaluación del modelo:
Una vez seleccionada la mejor ecuación de calibración mediante el
proceso de validación cruzada Leave-One-Week-Out, se procedió a ajustar
el modelo sobre el conjunto completo de datos disponibles. El modelo
seleccionado fue el modelo 7, que incluye como predictores el valor del
sensor PurpleAir, la temperatura, la humedad relativa y la interacción
entre estos dos últimos términos.
A partir de esta ecuación, se estimaron las concentraciones
calibradas de PM₂.₅ para cada observación en el conjunto de datos,
generando una nueva variable llamada pm25_calibrado.
En el gráfico de dispersión muestro la nube de puntos con los valores
emparejados entre el PM₂.₅ calibrado y el valor de referencia. Incluí
dos líneas: una diagonal punteada que representa la concordancia
perfecta (y = x), y una línea de regresión lineal (en azul) que ajusté
sobre los datos. La cercanía de los puntos a estas líneas refleja una
alta concordancia entre ambos valores, lo que me permite confirmar que
el modelo calibrado reproduce de manera precisa las mediciones del
equipo de referencia y que puede aplicarse en condiciones reales.


7. Bland-Altman:
Se elabora un gráfico de Bland-Altman para evaluar la concordancia
entre las concentraciones de PM₂.₅ corregidas mediante el modelo final
de calibración aplicado a los datos del sensor PurpleAir y las
mediciones obtenidas con el monitor de referencia utilizado en Lima
RESULTADOS: El modelo de calibración muestra una alta concordancia
con el equipo de referencia, con un sesgo bajo y la mayoría de las
diferencias esta dentro de los límites aceptables, sin embargo si
muestra mayor variabilidad en los extremos altos.

7. HACERLO PARA MONITOR 2 (Prueba):


