Se realiza el análisis de la base de datos DatoLaFloraR2 la cual cuenta con 11 variables y 297 observaciones sobre algunas variables de clima en el norte de Cali (Colombia).
Se escogió la variable SO2 y los días del 2 al 4 del mes de agosto del año 2011, obteniendo 72 observaciones (24 por día) con el objetivo de generar comprensión sobre cómo operan los estimadores kernel y desarrollar la estimación la función de regresión y la selección del \(\lambda\) óptimo, además realizar la comparación de los modelos.Es un gas tóxico de olor acre como el ácido nítrico (Áspero y picante al gusto y al olfato , como el sabor y el olor del ajo). Se libera de forma natural por la actividad volcánica y se produce como un subproducto de la extracción de cobre y la quema de azufre, combustibles fósiles, entre otros.
El SO2 es peligroso en altas concentraciones, la exposición prolongada a bajas concentraciones también es problemática.La contaminación del aire por el SO2 tiene los siguientes efectos en los seres humanos:
Se observa por medio del boxplot y la siguiente tabla, que los datos de SO2 en \(\mu g/m^3\) no son homogéneos, donde el día 2 presentó dos puntos atípicos, siendo la medición de SO2 55.76 \(\mu g/m^3\) el máximo en los tres días analizados. En el día 3, las mediciones son muy heterogéneas y presentó la mediana más alta. Se resalta que las medianas de los días 2 y 4, no presentan diferencias significativas.
Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | |
---|---|---|---|---|---|---|
Dia_2 | 4.07 | 7.4925 | 11.855 | 16.03458 | 19.7325 | 55.76 |
Dia_3 | 3.77 | 9.4925 | 18.210 | 19.47583 | 30.7325 | 41.82 |
Dia_4 | 5.95 | 8.0875 | 12.180 | 18.01167 | 24.5825 | 53.08 |
Se generó la variable fecha en el intervalo \(L_2(0,1)\) para satisfacer las propiedades del espacio vectorial: Tiene norma uno y producto interno igual a 0. Se muestra en el siguiente gráfico el comportamiento del \(SO_2\) durante los tres días seleccionados, el cual no se podría modelar o no sería lo más adecuado mediante la regresión lineal.
Usando el estimador de series de Fourier UBRE, el estimador Rice para estimar la varianza y la base de cosenos, se pretende seleccionar el \(\lambda\) más óptimo con el apoyo del criterio de validación cruzada generalizada. (Olaya, J. 2012)
\[\mu_\lambda(x)=\sum_{j=1}^\lambda \beta_{\lambda j}\sqrt{2}Cos\left((j-1)\pi x\right)\] Nota: Se utilizó la base de cosenos porque es la más ultilizada y validada.
Validación cruzada generalizada (GCV)
\[GCV(\lambda)=\frac{n^{-1}RSS(\lambda)}{(n^{-1}tr[I-S_\lambda])^2} \]
UBRE | CV | GCV | LAMBDA | |
---|---|---|---|---|
24 | 9.98278 | 68.69840 | 69.48496 | 25 |
31 | 12.38931 | 61.55929 | 63.26445 | 32 |
311 | 12.38931 | 61.55929 | 63.26445 | 32 |
Con el método de GCV y CV, encontramos el riesgo de predicción más bajo con \(\lambda\) de 32 porque es el mínimo en la validación cruzada generalizada, minimizando el riesgo de predicción. Con el estimador de UBRE, se obtiene un \(\lambda\) óptimo de 25.
Como nuestro criterio estadístico y entendiendo el problema de SO2 en la estación del norte de Cali en los días 2 al 4 de agosto del 2011, se ha seleccionado un \(\lambda\) de 32 para ajustar el modelo de regresión.
Se calcula el ancho de banda, el cual dió \(0.06944445\) este fue elegido mediante el método de validación cruzada (CV).
## [1] 0.06944445
\[\mu_\lambda(x)=\frac{\sum_{i=1}^nK(\lambda^{-1}(x-x_i))y_i}{\sum_{j=1}^nK(\lambda^{-1}(x-x_j))} \]
Estime los niveles de su variable de interés para la hora 9 AM del segundo día
Los niveles de \(SO_2\) estimados para la hora 9 a.m del segundo día fue de \(18.38466 (g/m^3)\).
## [1] 18.38466
Compare su modelo con el modelo de Fourier ¿Cuál es mejor? ¿Por qué?
La estimaciónkernel del comportamiento del \(SO_2\) usando el estimador Nadaraya-Watson parece menos influenciada por los puntos atípicos o picos que presenta la variable de estudio, en comparación con la estimación con series de cosenos usando un \(\lambda=32\) el cual fue óptimo para los datos; además es más suave.