Introducción

Se realiza el análisis de la base de datos DatoLaFloraR2 la cual cuenta con 11 variables y 297 observaciones sobre algunas variables de clima en el norte de Cali (Colombia).

Se escogió la variable SO2 y los días del 2 al 4 del mes de agosto del año 2011, obteniendo 72 observaciones (24 por día) con el objetivo de generar comprensión sobre cómo operan los estimadores kernel y desarrollar la estimación la función de regresión y la selección del \(\lambda\) óptimo, además realizar la comparación de los modelos.

El dióxido de azufre (SO2)

Es un gas tóxico de olor acre como el ácido nítrico (Áspero y picante al gusto y al olfato , como el sabor y el olor del ajo). Se libera de forma natural por la actividad volcánica y se produce como un subproducto de la extracción de cobre y la quema de azufre, combustibles fósiles, entre otros.

El SO2 es peligroso en altas concentraciones, la exposición prolongada a bajas concentraciones también es problemática.

La contaminación del aire por el SO2 tiene los siguientes efectos en los seres humanos:

  • Turbidez corneal
  • Dificultad para respirar
  • Inflamación de las vías respiratorias
  • Irritación de ojos
  • Daños en la garganta
  • Alteraciones psíquicas
  • Edema pulmonar
  • Insuficiencia cardíaca
  • Colapso circulatorio.
El SO2 también está asociado con el asma, bronquitis crónica, morbilidad y la alta mortandad en ancianos y niños. En el medio ambiente tiende a crear lluvia ácida, provocando destrucción de bósques y vida salvaje. https://www.elfinanciero.com.mx/opinion/salvador-garcia-linan/danos-del-azufre-a-los-seres-humanos/

Análisis exploratorio

Se observa por medio del boxplot y la siguiente tabla, que los datos de SO2 en \(\mu g/m^3\) no son homogéneos, donde el día 2 presentó dos puntos atípicos, siendo la medición de SO2 55.76 \(\mu g/m^3\) el máximo en los tres días analizados. En el día 3, las mediciones son muy heterogéneas y presentó la mediana más alta. Se resalta que las medianas de los días 2 y 4, no presentan diferencias significativas.

Min. 1st Qu. Median Mean 3rd Qu. Max.
Dia_2 4.07 7.4925 11.855 16.03458 19.7325 55.76
Dia_3 3.77 9.4925 18.210 19.47583 30.7325 41.82
Dia_4 5.95 8.0875 12.180 18.01167 24.5825 53.08

Regresión no paramétrica

Se generó la variable fecha en el intervalo \(L_2(0,1)\) para satisfacer las propiedades del espacio vectorial: Tiene norma uno y producto interno igual a 0. Se muestra en el siguiente gráfico el comportamiento del \(SO_2\) durante los tres días seleccionados, el cual no se podría modelar o no sería lo más adecuado mediante la regresión lineal.

Ajuste del modelo

Usando el estimador de series de Fourier UBRE, el estimador Rice para estimar la varianza y la base de cosenos, se pretende seleccionar el \(\lambda\) más óptimo con el apoyo del criterio de validación cruzada generalizada. (Olaya, J. 2012)

\[\mu_\lambda(x)=\sum_{j=1}^\lambda \beta_{\lambda j}\sqrt{2}Cos\left((j-1)\pi x\right)\] Nota: Se utilizó la base de cosenos porque es la más ultilizada y validada.

Selección de \(\lambda\)

Validación cruzada generalizada (GCV)

\[GCV(\lambda)=\frac{n^{-1}RSS(\lambda)}{(n^{-1}tr[I-S_\lambda])^2} \]

UBRE CV GCV LAMBDA
24 9.98278 68.69840 69.48496 25
31 12.38931 61.55929 63.26445 32
311 12.38931 61.55929 63.26445 32

Con el método de GCV y CV, encontramos el riesgo de predicción más bajo con \(\lambda\) de 32 porque es el mínimo en la validación cruzada generalizada, minimizando el riesgo de predicción. Con el estimador de UBRE, se obtiene un \(\lambda\) óptimo de 25.

Como nuestro criterio estadístico y entendiendo el problema de SO2 en la estación del norte de Cali en los días 2 al 4 de agosto del 2011, se ha seleccionado un \(\lambda\) de 32 para ajustar el modelo de regresión.

Estimador de Nadaraya-Watson

Se calcula el ancho de banda, el cual dió \(0.06944445\) este fue elegido mediante el método de validación cruzada (CV).

## [1] 0.06944445

\[\mu_\lambda(x)=\frac{\sum_{i=1}^nK(\lambda^{-1}(x-x_i))y_i}{\sum_{j=1}^nK(\lambda^{-1}(x-x_j))} \]

Estime los niveles de su variable de interés para la hora 9 AM del segundo día

Los niveles de \(SO_2\) estimados para la hora 9 a.m del segundo día fue de \(18.38466 (g/m^3)\).

## [1] 18.38466

Compare su modelo con el modelo de Fourier ¿Cuál es mejor? ¿Por qué?

La estimaciónkernel del comportamiento del \(SO_2\) usando el estimador Nadaraya-Watson parece menos influenciada por los puntos atípicos o picos que presenta la variable de estudio, en comparación con la estimación con series de cosenos usando un \(\lambda=32\) el cual fue óptimo para los datos; además es más suave.

Conclusiones

  • La estimaciónkernel del comportamiento del \(SO_2\) usando el estimador Nadaraya-Watson es más flexible y eficiente.
  • La función de regresión con el estimador Nadaraya-Watson es menos sobrestimada en comparación con el estimador de series de Fourier.