Algunos temas de interes para posibles investigaciones en la maestría

logo

Msc. Roberto Trespalacios

Programa de Maestría en Estadística Aplicada

Universidad Tecnológica de Bolivar

Temas

  • Datos funcionales: Clasificación de datos funcionales del ritmo circadiano de las abejas meliferas
  • Datos espacio-temporales: Análisis de datos sismicos en Puerto Rico para el periodo de diciembre 2019 hasta enero 2021
  • Machine learning: Catálisis de alto rango dinámico(HDR): Dinámica estructural de nivel atómico en catalizadores








Datos Funcionales

Clasificación de datos funcionales del ritmo circadiano de las abejas meliferas

  • Introducción
  • Definición de datos funcionales
  • Datos funcionales con expansiones de base
  • Periodograma de una serie de datos
  • Análisis de una serie de p-valores
  • Modelado de serie de p-valores (Dato funcional)
  • Pre-procesamiento de datos
  • Actograma y serie de la actividad de las abejas
  • Clasificación de los datos funcionales

Introducción

El Ritmo circadiano de los seres vivos importante para el estudio de procesos fisiológicos complejos tales como:

  • Ciclos de sueño
  • Comportamiento
  • Niveles de hormonales
  • Temperatura corporal
  • Metabolismo
  • Patrones de actividad
  • Busqueda de alimentos
  • Asimilación de medicamentos

Trabajos importantes recientes en ritmo circadiano

El Premio Nobel de Fisiología o Medicina 2017: Jeffrey C. Hall (New York), Michael Rosbash (Kansas) y Michael W. Young(Miami) “Por sus descubrimientos en los mecanismos moleculares que controlan el ritmo circadiano”.

Datos funcionales

Definición (Gasser-1984, Rice y Silverman-1991)

Los datos funcionales consisten en una muestra aleatoria de funciones de valores reales independientes, \( \chi_1(t), \dots, \chi_n(t) \), en un intervalo compacto \( I = [0, T] \subseteq \mathbb{R} \).

  • Cada \( x_i \) se pueden considerar realizaciones de un proceso estocástico unidimensional.
  • A menudo se supone que están en un espacio de Hilbert, como \( L^2(I) \).
  • Diremos que \( \chi(t) \in L^2(I) \) es un proceso estocástico \( \Leftrightarrow E\left[ \int_I \chi^2(t)dt \right] < \infty \).

Expanción base para datos funcionales

  • Representación de funciones no paramétricas de tiempo continuo.
  • Métodos de expansión de base (\( B \)):

    • \( \chi_i(t)= \sum_{k=1}^k c_{ik}\phi_k(t) + \varepsilon_{i} \), donde \( \phi_k \in \textit{B} \) son predefinidos y los coeficientes \( c_{ik} \in R \).
  • Algunas bases más usadas para \( \phi \), son: Bspline, Furier, Wavelets, etc.

  • \( E(\varepsilon_{i})=0 \) y \( Var(\varepsilon_{i})=\sigma^2 \)

Periodograma

Lomb-Scargle periodograma - Lomb (1976) and Scargle (1982) Schuster (1898) define el periodograma como una medida del poder relativo de una serie temporal en función de la frecuencia.

Este método define periodicidades ocultas, o pequeñas variaciones periódicas oculta detrás de fluctuaciones irregulares.

Periodograma de una serie de datos

Sea \( X_i=X_{t_i} \), para \( i=1,2,\dots, n \), entonces \( \bar{X}=\frac{\sum_{i=1}^n X_i}{n} \) y \( \hat{\sigma}^2=\frac{\sum_{i=1}^n(X_i-\bar{X})}{n-1} \)

El Lomb-Scargle periodograma se define como:

\[ \left( \frac{ \left[ \sum_{j}(X_j-\bar{X})cosw(t_j-\tau) \right]^2}{\sum_{j}cos^2w(t_j-\tau) }\right) + \frac{ \left[ \sum_{j}(X_j-\bar{X}senw(t_j-\tau) \right]^2}{\sum_{j}sen^2w(t_j-\tau) } \]

Aquí \( \tau \) está definido por \( \tan(2w\tau)=\frac{\sum_{j}sen2w(t_j\tau)}{\sum_{j}cos2w(t_j\tau)} \)

Periodograma de una serie de datos

Estamos interesados en la probabilidad de que la potencia del periodograma a la frecuencia dada sea mayor que un umbral especificado \( z \). Esto es dado por

\[ P[Z>z] =1- P_Z(z)=e^{-z/\sigma_X^2} \]

Cuando \( z \rightarrow \infty \) es exponencialmente menos probable que un nivel de potencia tan alto (o superior) pueda ser producido solo por ruido puro. Analogamente, es más probable que el nivel de potencia observado se deba a un determinismo genuino (es decir, no ruido) en la señal medida.

Análisis de la serie de p-valores

Sea \( X_t=(x_1,x_2,\dots, x_n) \) una serie de actividad en el tiempo. Definimos las subseries \( I_{j,k} \) de \( X_t \), para \( k \) fijo:

\[ I_{j,k} = X_{1 \leqslant t \leqslant (j \times k)} = (x_1, x_2, \dots, x_{j \times k}), \quad j = 1, 2, \dots, n/k \]

Para determinar la potencia (p−value) de la prueba de periodicidad para cada \( i \); de tal manera, que el tiempo \( t \) tal que la serie de p−values < 0.05 lo denominamos \( t_{stable} \), y lo representamos así:

\[ t_{stable}=\max_{1 \leqslant t \leqslant n}\{t \mid p_{t-1} > p_t \hspace{0.2cm} \wedge \hspace{0.2cm} p_{t}<0.05 \} \]

Curvas funcionales Bsplines de los p-valores

La curva \( x_i \) modela la serie de p-values \( p_{t(i)}=(p_1,…,p_{t_{stable}},…,p_{k−1},p_k) \), de la abeja i.

Podemos decir, que el tiempo \( tstable \) define el comportamiento del inicio del ritmo circadiano de la abeja \( i \).

Ritmo circadiano de abejas Apis mellifera

  • Los datos provienen de un experimento con dos grupos (2 grupos: \( 25^\circ \) C y \( 35^\circ \)).
  • Cada uno de ellos con cuatro monitores (4 monitores).
  • Cada monitor con 32 abejas.
  • El tiempo de registro de actividad fué por 9 días (168 horas)
  • Las mediciones están hechas cada minuto.

Serie de actividad y pre-procesamiento de datos

Actograma: actividad de las abejas

Serie: actividad de las abejas

Periodogramas y series de p-valores

Periodo de actividad de la abeja

Evolución de la serie de p-valores

Curvas para todas las abejas del monitor 41 a una temperatura de 35 grados C

Clasificación de las abejas en cada temperatura

Clasificación final de las abejas por temperatura

Conclusiones

  • El análisis del ciclo del período de las abejas es un complejo Problema debido a la particularidad e incertidumbre de la actividad. y comportamiento en cada abeja.
  • Las mediciones de los datos no deben ser muy cercanas, porque la serie de tiempo puede perder su tendencia cuando hay son demasiadas muestras en un período de tiempo muy corto.
  • Se observó que las curvas modeladas por monótono splines cúbicos y el uso de agrupaciones aglomerativas jerárquicas, son una herramienta poderosa para determinar los diferentes grupos las curvas. Además, estas mismas curvas sirven de base para calcular el inicio de ciclos periódicos, mediante de la proyección de los tiempos tstables en cada curva.
  • El uso de periodogramas es beneficioso; sin embargo, tiene sus limitaciones. Por esta razón, el análisis consecutivo de periodogramas hasta alcanzar la periodicidad de la serie, puede llevar a conclusiones erróneas, para minimizarlas es importante refinar los cálculos y el método de velocidades y luego compare los resultados.








Datos Espacio-Temporales

Introducción

Actualmente, estamos trabajando en la modelación espacio temporal de los ciclos sismicos en la isla de Puerto Rico. En esta parte, presentaremos algunos análisis previos descriptivos sobre la parte espacial y temporal del fenomeno de los sismos en la región del caribe que comprende la isla y sus alrededores.

  • La motivación de este trabajo, se debe a la gran incidencia de los terremotos en la región. Muchos terremotos notorios, siendo el más fuerte de magnitud 6.4 Mw, se han dado desde entonces.

Sismos en Puerto Rico (Dic 2019-Ene 2021)

Los municipios de mayor impacto tanto en la cantidad de sismos como en la intensidad de ellos fueron Guánica y Guayanilla, aunque pueblos cercanos a estos también han sido afectados significativamente y se tuvieron que crear refugios para las personas. Desde diciembre de 2019 ha ocurrido una actividad sísmica fuerte en Puerto Rico, principalmente en el suroeste de la isla, y ha sido evidente que los municipios no cuentan con las infraestructuras adecuadas para este tipo de emergencias.

Busqueda y filtro de los datos

  • Para la fecha actual comparada con la fecha de hace un año, ha temblado en Puerto Rico casi 19 veces menos, lo cual nos muestra el comportamiento alarmante con que ocurrieron los sismos el año pasado no sólo en comparación con este año sino también y sobretodo con respecto a los añonnos anteriores a él.
  • Con la cantidad aproximada de 69570 datos recopilados y 41742 datos creados a partir de ellos, se obtuvieron las siguientes tablas y gráficas que nos ayudan a entender el comportamiento de las placas y los 13914 sismos analizados (3687 ocurridos en tierra y 10227 en el océano).

Análisis espacial descriptivo

Mediante el mapa podemos ver la gran proporción de sismos en los dos grupos de intensidad igual o mayor que 2.08 Mw y menor que 4.24 Mw.

Análisis estadístico descriptivo

Del mapa anterior, vemos también que el 100% de los sismos con intensidad mayor a 5.32 Mw ocurrieron en el área sur- oeste de Puerto Rico ya sea en tierra o en el mar, y todos con un radio aproximadamente menor a 25km del centro de masa (lat = 18.03999, lon = -66.8949).

No obstante, frente a los otros rangos de intensidad de sismos, como los 71 sismos con intensidad mayor o igual a 4.24 Mw que representan el 0.51% del total, aunque el porcentaje de estos últimos es pequeño estos sismos son los más significativos y el motivo de nuestro estudio.

Frecuencia de sismos y su localización por municipio

La cantidad de incidencias según localización fue muy variada y más adelante mostraremos detalles de las 37 localizaciones más destacadas según ese número.

Municipios con la mayor incidencia de sismos

Es importante mencionar que las primeras 9 que lideran este ranking de localizaciones epicentros después del océano (10227) fueron:

  • Montalva (Guánica),
  • Boca (Guayanilla),
  • Barinas (Yauco),
  • Carenero (Guánica),
  • Costa (Lajas),
  • Tallaboa Poniente (Peñuelas),
  • Indios (Guayanilla)
  • Cedro (Guayanilla)
  • Magas (Guayanilla)

Estas 9 localizaciones muestran frecuencias superiores a 125 sismos; y en conjunto con las del océano acumulan 13 140 sismos (aprox. 94.44% del total).

Distribución mensual de los sismos

En la distribución mensual de la cantidad de sismos ocurridos durante el periodo de estudio podemos resaltar la gran diferencia observada de la cantidad de sismos ocurridos en enero 2020 respecto a los demás meses del 2020 y la primera quincena del 2021.

Hubo más de 4500 sismos, que se redujeron en tres cuartas partes durante el mes de febrero 2020 y continuaron disminuyendo julio 2020; para luego continuar decreciendo en diciembre del 2020.

Conteo acumulado de sismos respecto a un radio (0, 20, 40,...,240) en km.

Aproximadamente el 91% de los sismos se presentan en una región circular cuyo centro es el centro de masa (a esta regón la llamaremos región I). El área de la región I es de 5026.3 \( Km^2 \). La región rectangular que abarca completa para nuestro análisis; de coordenadas lat 17.2 \( S \), 19.5 \( N \) y lon 68.2 \( O \), 65 \( E \), la llamaremos región II; esta región tiene un área de 76748.9 \( Km^2 \) (ver mapa inicial).

Puntos de cambio en la serie de tiempo de la magnitud de los sismos

Existe un punto de cambio en la serie de la magnitud de los sismos; este punto se da el 07/01/2020 a las 3:29 am, en donde se registra un sismo de 2.48 Mw, de profundidad de 3 Km, en la falla Punto Montalva.

Esta ruptura es la antesala del aumento en la magnitud promedio de los sismos en la serie que fue de 2.25 Mw y posteriormente aumenta a 2.64 Mw.

Puntos de cambio en la serie de tiempo de la profundidad de los sismos

El promedio en la profundidad, que era de 27.3 Km antes del punto de ruptura y que pasa a ser 10.88 Km posteriormente.

  • Durante los tres días en los que el promedio de la magnitud cayó, también la profundidad tuvo un cambió en el promedio (12.32 Km).
  • Posterior al punto de cambio, luego de 55 min, se presenta el sismo de magnitud máxima (6.4 Mw), con profundidad de 8.95 Km.

Conclusiones del análisis de los datos y del conteo acumulado de sismos respecto al radio

  • La energía media por semana durante el periodo 01/12/2019 hasta el 15/01/2021 para la región circular I, fue de 368.7 MJ
  • Para la región rectangular II fue de 3288.7 MJ.

Lo anterior significa que:

  • la región I es 1.7 veces más propensa a la actividad sísmica que la región II
  • Todo esto, no obstante que la región I es 15 veces más pequeña que la región II.
  • Considerando estas relaciones, podemos anotar que un terremoto de magnitud igual a 8 Mw, libera energía equivalente a 1011 MJ;

Ejemplo: la energía liberada por una explosión nuclear de 10 kilotones es de 106 MJ y equivale a un terremoto de magnitud igual a 5.5 Mw.








Machine learning

Catálisis de alto rango dinámico(HDR): Dinámica estructural de nivel atómico en catalizadores

Introduction

What are Catalysts Catalysts Surface Structural Motifs Why Does it Matter? TEM images Enzymes smFRET Denoising Denoising TEM images High Dimensionality Dimension Reduction for TEM images Modeling Dynamics in Proteins Change Point Analysis Hidden Markov Models (HMM) HMM for FRET HMM

imagen

Introducción

  • La dinámica estructural de nivel atómico en catalizadores es un proyecto de la NSF financiado con el objetivo de aprovechar las herramientas de estadísticas modernas y machine learning para realizar actividades basadas en descubrir caracteristicas de los catalizadores, basandose en la dinamica a nivel atómico.

  • El proyecto se basó en la experiencia complementaria en ciencia de materiales, biofísica, estadística y ciencia de datos.

  • En la fase I, el objetivo de la investigación es explorar, describir y cuantificar la dinámica estructural a nivel atómico del sistema catalitico catalíticos con foco en enzimas y nanopartículas.

¿Qué son los catalizadores?

  • La catálisis es un proceso para inducir/aumentar una reacción química al agregar un catalizador.
  • En el área de la ciencia de los materiales, las nanopartículas sirven como catalizadores.
  • En el área de las proteínas, las enzimas sirven como catalizadores.
  • Aunque tanto las enzimas como las nanopartículas pueden funcionar comocatalizadores para regular y controlar los procesos de conversión química, sus respuestas dinámicas son diferentes.
  • Como tales, son excelentes sistemas modelo para comparar y métodos de análisis de contraste que proporcionan un espacio adecuado para identificar soluciones generales óptimas.
  • Estos enfoques generales deben ser aplicables a una cantidad de problemas fundamentales en la ciencia de los materiales y biología estructural con posibles aplicaciones a otros áreas donde las fluctuaciones dinámicas son importantes.

Catalizadores

  • El proceso de transformación química catalítica está asociado con reordenamientos estructurales dinámicos y el grado de La reconfiguración es específica del sistema (es decir, catalizador, reactivos y productos).

  • Hasta hace poco, estas evoluciones estructurales eran relativamente inexplorado debido a la falta de herramientas experimentales con suficiente Resoluciones espaciales y temporales.

  • Aquí exploraremos la evolución espacio-temporal de sistemas de nanopartículas y enzimas que utilizan una combinación de novedosos instrumentación de última generación, ciencia de datos y técnicas de modelado.

Motivos estructurales de superficie

  • Es un elemento estructural 3D o pliegue dentro de una proteína, queaparece también en una variedad de otras proteínas (la estructura tiene unfunción particular)
  • Los motivos de superficie catalíticamente relevantes a menudo se forman solo bajo elcondiciones de reacción adecuadas.
  • Diferenciar entre motivos catalíticamente activos y pasivoslas estructuras del espectador es un desafío intelectual.
  • Obtener una resolución atómica dinámica localizada estructuralinformación sobre nanopartículas activas y sus superficies, esnecesario utilizar microscopias in situ.

¿Por qué es importante?

  • En terminología química, los reactivos se encuentran en productos.(por ejemplo, oxidación de metano)
  • Queremos mejorar la velocidad de la reacción deseada y suprimir la velocidad de la reacción no deseada.
  • Tales transformaciones requieren un cambio de energía.

¿Por qué es importante?

Si \( E_i \) es la energía del reactivo, \( E_f \) la energía del producto, y \( E_i > E_f \) , a medida que avanza la reacción, el panorama energéticodebe enfrentar una barrera de energía, \( E_a \).

  • Cuanto mayor sea \( E_a \), mayor será el tiempo de reacción.
  • Los catalizadores cambian la altura de la barrera energética.
  • Las nanopartículas maximizan el área de superficie para las reacciones.

¿Por qué es importante?

  • Para mejorar los sistemas cataliticos debemos entender cómo los catalizadores trabajan a nivel atómico.

  • Se estima que el 90% de todos los productos fabricados involucran procesos catalíticos en algún lugar de su cadena de producción, y estos productos tienen un impacto considerable en la energía, la salud(productos farmacéuticos), nuevos materiales (polímeros) y el transporte.
  • La ilustración muestra la estructura de la adenilato quinasa (ADK)enzima en el estado inactivo/abierto/Apoenzymes (izquierda) y en el estado activo/cerrado/unido al sustrato (derecha), determinado por cristalografía de rayos X.

Imágenes TEM (Transmission electron microscopy)

La técnica TEM, o microscopía de la transmisión electrónica de un objeto (TEM) dispara un haz deelectrones a través de una muestra para producir una imagen ampliada de un objeto.

  • Se coloca un cristal en el microscopio electrónico. Los electrones interactuar con el campo eléctrico de los átomos generado por protones y electrones.
  • Cuando se dispara un haz de electrones a una muestra de cristal, ellos electrones se dispersan (perturban) a medida que se mueven a través delmuestra. En el lenguaje de la mecánica cuántica, podemos pensarde esto como la onda de electrones que es dispersada por los átomos en elcristal.
  • En condiciones favorables, la imagen electrónica representa la proyección 2D de la estructura del objeto.
  • Ejemplo de imagen TEM y cómo puede mostrar iones positivos (catión)cambiando

Imagen TEM

Ejemplo: Imagen TEM y cómo puede mostrar iones positivos (catión)cambiando

a) Imagen TEM de la superficie de la molecula \( CeO2 \) (111) de una \( CeO_2 \); la columna \( Ce \) aparece difusa en cada sitio de paso. La serie de imágenes consecutivas de la b) a la d), muestran un cambio cationico de 0.5 en cada paso(ver flechas).

Enzimas

  • Las enzimas son proteínas con función catalítica.
  • Las enzimas están involucradas en diversos procesos inflamatorios, cardiovasculares,y enfermedades metabólicas y forman una de las más importantesclases de proteínas como dianas de fármacos.
  • También tienen un gran potencial para aplicaciones industriales: productos farmacéuticos, procesamiento de alimentos y biocombustibles.
  • Comprender la catálisis enzimática a nivel molecular podría tener un gran impacto tanto en el diseño de fármacos eficientes paraenzimas de destino y proteínas de enzimas de ingeniería para una eficiencia aplicaciones industriales.

smFRET (Single molecule Fluorescence Resonance Energy Transfer)

  • La transferencia de energía de resonancia de fluorescencia de una sola molécula (o molecula simple)(smFRET) la espectroscopia mide la transferencia de energía de un donante a una molécula con un colorante aceptor para inferir información sobre su distancia en función del tiempo.
  • La tonalidad del tinte proporciona posteriormente información sobre la distancia entre los dos sitios/áreas de proteína a los que se adjuntan las moleculas.

smFRET

  • Las distancias entre áreas permiten inferir información sobre la dinámica estructural de la proteína.
  • El análisis de datos smFRET implica determinar la distribución de los estados y construcción de un modelo cinético que describalas interconversiones estatales.
  • El análisis de distribución de estado se realiza normalmente mediante un histograma y ajustando una mezcla gaussiana.
  • Determinar la distribución estatal y su interconversión. Las tarifas serán uno de los temas del estudio propuesto (por ejemplo, abierto/inactivo a cerrado/activo)

Eliminación de ruido en imágenes TEM

  • Eliminación de ruido con desenfoque gaussiano, filtro Wiener (suponiendo señal gaussiana), o métodos bayesianos han sido propuestos
  • Para las imágenes TEM, proponemos utilizar redes neuronales convolucionales (CNN) para eliminarlos.
  • Los modelos ocultos de Markov (HMM) tienden a tener en cuenta bien el ruidocuando se aplica a datos de series de tiempo.
  • La tarea de eliminación de ruido tiene como objetivo identificar instancias de un conjunto deestructuras, y asignando etiquetas de clase \( \{c_n\} \) y espacialescoordenadas \( \{(x_n, y_n)\} \) a cada uno de ellos.
  • En el caso más simple, solo hay una clase (“átomo”), pero el análisis se puede ampliar para identificar estructuras específicas deátomos, columnas de átomos de varios tamaños, vacantes, etc.
  • La red neuronal convolucional se entrenará con unconjunto predefinido de etiquetas \( N_c \), \( C = \{c_0, c_1,\dots, c_{N_c}\} \) y asigne inicialmente una probabilidad para cada posible etiqueta.
  • La elección de cómo categorizar las estructuras depende de cómoel investigador deriva significado de las imágenes.

Eliminación de ruido en imágenes TEM

  • Un enfoque es simular imágenes TEM y agregar ruido ahazlos realistas.
  • Luego, las redes neuronales convolucionales se entrenan en estosimágenes TEM simuladas (Madsen et al.2018).
  • Una vez configurada la arquitectura CNN adecuada (pesos, capas,nodos, etc.), el algoritmo se puede implementar en TEM realimágenes para eliminar ruido.

Alta dimensionalidad

  • Un conjunto de datos se considera de alta dimensión cuando tiene muchoscaracterísticas.
  • Esto puede ser en términos del número de observaciones, o entérminos de requerir trabajar con demasiados parámetros.
  • La maldición de la dimensionalidad trae peligros de sobreajuste(overfitting) y el gasto computacional.

Reducción de dimensión para imágenes TEM

  • Se propone un esquema de reducción de dimensionalidad adaptado a laestructura específica de las imágenes TEM.
  • Los datos TEM corresponden a proyecciones 2D de estructuras atomicas en 3D.
  • Las proyecciones en direcciones de alta simetría muestran imágenes bien definidascolumnas atómicas o franjas de celosía.
  • La proyección en direcciones de baja simetría representa la distribución de la intensidad que no se pueden descomponer en columnas o franjas periódicas.
  • Proponemos segmentar las imágenes en regiones con alta y baja simetría, y reducir su dimensionalidad por separado.
  • Para realizar la segmentación ajustaremos una mezcla de gaussianosa la imagen, inspirada en las técnicas existentes para localizar columnas de los atomos.
  • Regiones donde la mezcla gaussiana es muy regular y suLa probabilidad es alta (es decir, el ajuste representa una gran fracción de laintensidad local) se declarará de alta simetría.
  • El modelo de mezcla gaussiana produce directamente una baja dimensiónrepresentación de estas regiones parametrizadas por los medios y matrices de covarianza de cada gaussiano.
  • En las regiones de baja simetría, extraeremos una baja dimensión representación suavizando los valores de intensidad con un filtro de paso bajo y agrupando sus valores en una cuadrícula gruesa. Esto producirá una representación no paramétrica en forma de una distribución de intensidad de baja resolución.

Modelado de la dinámica de las proteínas

  • Conocer el número de conformaciones localmente estables en smFRETdatos (es decir, estados), y las probabilidades de transición entreestados, análisis de distribución de estados o los modelos ocultos de Markov(HMM) han sido ampliamente adoptados.
  • El análisis de puntos de cambio también se puede aplicar para capturar estosdinámica.

Análisis de puntos de cambio

  • El análisis de puntos de cambio es el proceso de detección de distribucionescambios dentro de las observaciones ordenadas en el tiempo

Usando el algoritmo de multiple puntos de cambio (ecp) (Matteson and James 2014) de forma simultanea para el donante (donor) (violeta), receptor (aceptor) (verde) y la eficiencia del FRET (gráfico de la serie insertada (negro)); el algoritmo identifica los puntos donde los estados cambian.

Despues de \( t = 2 seg \) y \( t = 4 seg \), un cambio falso en solo la señal del receptor es detectada; pero esto no fue detectada en la señal de la eficiencia del FRET. Luego, un poco más tarde, el tinte de la señal del aceptor se oscurece. El tinte de la señal del donante se oscurece alrededor de \( t = 9 seg \)

Modelos ocultos de Markov (HMM)

  • En el marco de HMM, se supone que un sistema de interésalternar sucesivamente entre diferentes estados \( K \).
  • \( K \) denota el número total de estados disponibles para el sistema,no importa si todos estos estados son visitados o algunos permanecenno visitado durante el transcurso del tiempo de las mediciones.
  • En un experimento con una sola proteína, la proteína es el “sistema” y los “estados” son configuraciones.
  • En el HMM estándar, asumimos que las transiciones del sistemase rigen por la dinámica de Markov (primer orden).
  • Esto significa que el sistema salta de un estado \( i \) al estado \( j \), por ejemplo, de un valor FRET a otro, de manera estocástica que depende exclusivamente de \( i \) y de ningún otro estado visitado en el pasado.

HMM para FRET

  • Para \( N \) puntos de tiempo, sea la trayectoria experimental FRET \( x = (x_1, \dots, x_N) \), donde \( x_i \) está entre 0 y 1;

\[ \frac{\text{fluorescencia del receptor}}{(fluorescencia del receptor + fluorescencia del donante)} \]

  • Tenemos \( K \) estados ocultos, y \( s = (s_ 1 ,..., S_N) \)
  • $x_i|s_i = $k \sim N(\mu_k, \sigma2_k)
  • La matriz de transición \( K \times K \) de \( s \) es \( A = (A_{ij}) \) donde \( A_{ij} \) es la probabilidad de pasar del estado \( i \) al estado \( j \) en cualquier tiempo \( t \)
  • Para cada trayectoria, \( \boldsymbol{\theta} = (A , \mu_1, \dots, Μ_K, \sigma^2_1,\dots, \sigma^2_K) \)
  • La probabilidad de que \( s_1 \) esté en el estado \( 1,\dots,K \) es $ = ( \psi_1, \dots, \psi_K)$
  • Tenemos

\[ P(x, s|\theta) = \psi_{n=2}^ = P( s_n| s_{n− 1}, A)_{n=1}^ = P(x_n|s_n, \mu, \sigma^2) \]

Modelos ocultos de Markov (HMM) y redes neuronales artificiales (ANN)