La fluorescencia es la propiedad de algunos átomos y moléculas de absorber luz a una longitud de onda determinada (excitación) seguido por la emisión de luz de corta duración a una longitud de onda más larga.
La fluorescencia implica una fuente de luz externa para excitar la muestra a una longitud de onda en particular. Cuando se excita a la longitud de onda adecuada, la molécula pasa de un estado básico a otro excitado. A medida que la molécula vuelve al estado fundamental, se libera energía en forma de calor (pérdida de energía) y luz a una longitud de onda diferente de menor energía.
Recolección de los datos
Se recolectaron muestras de azúcar durante tres meses de operación en una planta azucarera ubicada en Escandinavia. Las muestras se tomaron cada ocho horas, lo que corresponde a tres mediciones diarias, para un total de 268 muestras a lo largo del periodo de estudio.
El azúcar se disolvió en agua en una proporción de 2.25 g por 15 ml, y la solución resultante se analizó utilizando un espectrofluorómetro PE LS50B.
Cada muestra fue excitada a siete longitudes de onda (230, 240, 255, 290, 305, 325 y 340 nm). Para cada una de estas excitaciones, el equipo registró la intensidad de emisión en 571 longitudes de onda. Los espectros de emisión se midieron en el rango de 275 a 560 nm, con intervalos de 0,5 nm.
Almacenamiento de los datos
Los datos de fluorescencia se almacenan en una matriz de 268 x 3997. Las primeras 571 columnas corresponden a las mediciones de emisión para la primera longitud de onda de excitación (340 nm). Las últimas 571 columnas corresponden a las mediciones de emisión para la última longitud de onda de excitación (230 nm)
Asi se tienen las curvas espectrométricas asociadas a la producción de azúcar corresponden a 7 longitudes de onda de excitación \(Y_1 = 230\,\text{nm},\; Y_2 = 240\,\text{nm},\; Y_3 = 255\,\text{nm},\; Y_4 = 290 \text{nm},\; Y_5 = 305\,\text{nm},\)
\(Y_6 = 325\,\text{nm},\; Y_7 = 340\,\text{nm}\).
Las observaciones correspondientes a cada longitud de excitación representan un proceso funcional continuo \(Y_i\) , así que el proceso de producción de azúcar se puede considerar como un proceso funcional multivariado \(\mathbf{Y}\) está conformado por \(\mathbf{Y}=(Y_1, Y_2, ..., Y_7)\).
Figura 1: Espectros de emisión para los siete procesos.
3 Suavizado de las curva
El objetivo es ajustar una función a un conjunto de observaciones discretizadas \(y_j\), con \(j = 1, \ldots, n\), bajo \[
y_j = x(t_j) + \varepsilon_j
\]
Donde \(x\) es una función desconocida y \(\varepsilon_j\) es el término de error.
La función \(x\) para cada tiempo, se aproxima mediante:
Las funciones \(\phi_k\) constituyen la base funcional utilizada en la aproximación y su forma específica depende del tipo de base seleccionada (por ejemplo, Fourier o B-splines).
Los coeficientes \(c_k\) representan los pesos asociados a cada función base dentro de la combinación lineal y se estiman mediante mínimos cuadrados o mínimos cuadrados penalizados. Finalmente, \(K\) es el número total de funciones base empleadas en la aproximación y determina, en parte, la flexibilidad del modelo.
Suavizado splines
La metodología de suavizamiento mediante splines también se basa en la representación de la función como una combinación lineal de funciones base. Sin embargo, en este caso, los coeficientes de dicha combinación se estiman minimizando una suma de cuadrados del error a la que se le incorpora un término de penalización asociado a la curvatura de la función, controlado por el parámetro \(\lambda\).
\(\mathrm{PENSSE}_m(y \mid c) = \mathrm{SSE}(y \mid c) + \lambda \mathrm{PEN}_m(x)\)
Este parámetro regula el equilibrio entre ajuste y suavidad. Generalmente, \(\lambda\) se selecciona mediante validación cruzada generalizada (GCV).
En esta metodología, a diferencia de la regresión splines, el número de funciones base no es el elemento más determinante; el papel central lo desempeña el valor de \(\lambda\), ya que es el que define principalmente el grado de suavidad de la función.
Justificación del suavizado
Para el suavizado de las curvas se empleará suaviado splines, utilizando bases B-splines. Esta elección se justifica a partir de la visualización de los datos, donde se puede observar en Figura 1 que los espectros de emisión no presentan un comportamiento periódico. En este contexto, los B-splines son una base adecuada.
En cuanto al número de funciones base, se realizaron pruebas con distintos valores de \(K\) (por ejemplo, valores cercanos a 70). No obstante, se observó que algunos de estos ajustes producían valores negativos en los espectros de emisión, lo cual no es consistente con la naturaleza de los datos, Por esta razón, se utilizo la función smooth.pos del paquete fda para garantizar que el ajuste no de valores negativos y \(K=40\).
Finalmente, la selección del parámetro de suavizado \(\lambda\) se llevó a cabo mediante la exploración de una grilla de valores candidatos, con el objetivo de identificar aquel que minimiza la suma de cuadrados penalizada
Código
x <-seq(275, 560, by =0.5)onda_340 <-as.matrix(t(sugar_fluo[1:268,1:571]))onda_325 <-as.matrix(t(sugar_fluo[1:268,572:1142]))onda_305 <-as.matrix(t(sugar_fluo[1:268,1143:1713]))onda_290 <-as.matrix(t(sugar_fluo[1:268,1714:2284]))onda_255 <-as.matrix(t(sugar_fluo[1:268,2285:2855]))onda_240 <-as.matrix(t(sugar_fluo[1:268,2856:3426]))onda_230 <-as.matrix(t(sugar_fluo[1:268,3427:3997]))
4 Usando el data set, seleccione un proceso y encuentre:
Se considerará para los puntos a continuación el proceso \(Y_2\) que corresponde a las curvas espectrométricas asociadas a la producción de azúcar de la segunda longitud de onda de excitación (240nm).
4.1 Función media
Sea \(x_i\), \(i=1, \ldots, n\), una muestra de curvas o funciones ajustadas a los datos. La función media muestral en \(t\), se definen como:
\[
\bar{x}(t) = \frac{\sum_{i=1}^n x_i(t)}{n}
\]
Código
grid <-seq(min(t), max(t), length =1000)fd.240<-t(fits[ , , 2])Ybar <-colMeans(fd.240)matplot(grid, fits[ , , 2], type ="l",col ="#CCCCFF", lty =1,xlab ="Longitud de Onda de Excitación (nm)",ylab ="Intensidad de Fluorescencia")lines(grid, Ybar, col ="#000033", lwd =1.5)legend("topright", legend =bquote("Función Media "~bar(x)(t)), col ="#000033", lwd =1.5,bty ="n",cex =0.9)
Figura 2: Curvas espectrométricas de fluorescencia y función media asociadas a la segunda longitud de onda de excitación (240nm).
En Figura 2 se presentan las curvas espectrométricas asociadas a la segunda longitud de onda de excitación. Las líneas azules representan las curvas individuales, mientras que la línea azul oscuro corresponde a la función media muestral. Se observa un aumento de la intensidad hasta aproximadamente 350 nm, seguido de un comportamiento casi constante hasta alrededor de 450 nm. A partir de este punto, la intensidad comienza a descender, lo que indica que para longitudes de onda menores y mayores la intensidad es menor.
4.2 Función media recortada al 10%
La media recortada al \(100\alpha \%\) se calcula de manera análoga a la media funcional, con la diferencia de que se excluyen las \(100\alpha \%\) funciones menos centrales.
Functional band depth
Siguiendo el enfoque propuesto por López-Pintado y Romo (2009). Sea \(x_1, \dots, x_n\) una colección de funciones reales, en el espacio \(C(I)\) de funciones reales continuas sobre el intervalo compacto \(I\). El gráfico de una función \(x\) es el subconjunto del plano \(G(x) = \{(t, x(t)) : t \in I\}\). La banda en \(\mathbb{R}^2\) delimitada por las curvas \(x_{i_1}, \dots, x_{i_k}\) es:
\[
\begin{equation}B(x_{i_1}, x_{i_2}, \dots, x_{i_k}) = \left\{ (t, y) : t \in I, \min_{r=1, \dots, k} x_{i_r}(t) \leq y \leq \max_{r=1, \dots, k} x_{i_r}(t) \right\}\end{equation}
\]
Para cualquier función \(x\) en \(x_1, \dots, x_n\), la cantidad
expresa la proporción de bandas \(B(x_{i_1}, x_{i_2}, \dots, x_{i_j})\) determinadas por \(j\) curvas diferentes \(x_{i_1}, x_{i_2}, \dots, x_{i_j}\) que contienen el gráfico de \(x\).
Para las funciones \(x_1, \dots, x_n\), la profundidad de banda (BD) de cualquiera de estas curvas \(x\) es
De esta manera, es posible ordenar las curvas según su nivel de centralidad, de modo que aquellas con mayores valores de profundidad de banda (BD) se consideran las más centrales dentro del conjunto de datos.
Tambien se puede introducir una definición más flexible donde \(GS_n^{(j)}(x)\) es la proporción de coordenadas de \(x\) dentro del intervalo establecido por \(j\) puntos diferentes de la muestra:
Definiendo este orden funcional, sean \(x_{[1]}, \dots, x_{[n]}\) los estadísticos de orden, siendo \(x_{[1]}\) la curva más profunda (la más central) y \(x_{[n]}\) la curva más alejada.
De esta forma, si se quiere encontrar la media recortada al 10%, entonces con \(\alpha = 0.1\) y \(N=268\), \(N - \lfloor N\alpha \rfloor = 242\).
Usando la función MBD del paquete depthTools se calcula esta última propuesta de profundidad de banda. Posteriormente, se presenta la visualización de las curvas junto con la media recortada.
Con base en estos resultados, se presenta la media recortada al 10% en la Figura 3.
Código
matplot(grid, fits[ , , 2], type ="l",col ="#CCCCFF", lwd =1.5,xlab ="Longitud de Onda de Excitación (nm)",ylab ="Intensidad de Fluorescencia")lines(grid, Ytrimmed_mean, col ="seagreen3", lwd =2)lines(grid, Ybar, col ="#000033", lwd =2, lty ="solid")legend("topright", legend =c(bquote("Función Media "~bar(x)(t)),bquote("Función Media Recortada "~bar(x)[0.1](t))), col =c("#000033","seagreen3"), lty ="solid",lwd =2,bty ="n",cex =0.9)
Figura 3: Curvas espectrométricas de fluorescencia y función media recortada asociadas a la segunda longitud de onda de excitación (240nm).
4.3 Función de varianza
Sea \(x_1, ..., x_n\) una muestra de curvas sobre un intervalo \([a,b]\). Luego, la función de varianza en \(t\) está dada por:
Ybar <-colMeans(fd.240)centered <-sweep(fd.240, 2, Ybar, "-")centered2 <- centered^2var_f <-colSums(centered2) / (nrow(fd.240) -1)plot(grid, var_f, type="l", lwd=1,xlab="Longitud de Onda de Excitación (nm)", ylab="Varianza", col="red", main ="Función Varianza")
Figura 4: Función varianza para las curvas fluorescencia asociadas a la segunda longitud de onda de excitación (240nm)
4.4 Función de covarianza
La función de covarianza bivariada \(\sigma(s,t)\) especifica la covarianza entre los valores de las curvas \(x_i(s)\) y \(x_i(t)\) en los tiempos \(s\) y \(t\), respectivamente. Esta se estima mediante