Capítulo 2: Modelos de Markov ocultos: definición y propiedades

2.1. Un modelo de Markov oculto simple

Considérese nuevamente la serie de terremotos mostrada en el capitulo anterior. Las observaciones son cuentas ilimitadas, haciendo la distribución de Poisson una elección natural para describirlas, pero su distribución es claramente relativa sobre dispersa a la de Poisson. Observamos en el capítulo anterior que este hecho puede ser acomodado al usar una mezcla de distribuciones de Poisson con medias \(λ_1,λ_2,…,λ_m\). La elección de la media esta hecha por un segundo proceso aleatorio, el proceso de parámetro. La media \(λ_i\) es seleccionada con probabilidad \(δ_i\), donde \(i=1,2,…,m\) y \(\sum_{i=1}^mδ_i=1\).

Un modelo de mezcla independiente no resultara con la serie de terremotos porque, por definición, no permite la dependencia serial en las observaciones. La muestra de función de autocorrelación (ACF), desplegada en la Figura 2.1, claramente indica que las observaciones son dependientes en serie. Una manera de permitir la dependencia serial en las observaciones es relajar la suposición que el proceso de parámetro es independiente en serie. Una manera simple y matemáticamente conveniente para hacer esto es asumir que es una cadena de Markov. El modelo resultante para las observaciones es llamado un modelo de Markov oculto de Poisson.

library(forecast)
library(readr)
#leer la data 
data_terremotos_ch2 <- read.table("/Users/bracruz/Documents/8vo. Trimestre IO/Sist. Expertos y Redes Prob./earthquakes.txt")
#Obtener la ACF de la data anterior
ACF_ch2 <- acf(data_terremotos_ch2, plot=TRUE)

Figura 2.1

2.2 Lo básico

2.2.1 Definición y notación

Figura 2.2

Figura 2.2

Un modelo de Markov oculto \({X_t:t ∈N}\) es un tipo particular de mezcla dependiente. Con \(X^t\) y \(C^t\) representando las historias del tiempo 1 al tiempo t, uno puede resumir el modelo más simple de este tipo por:

\[ Pr(C_t | C^{t-1}) = Pr(C_t | C_{t-1}), t=2,3,... \\ Pr(X_t | X^{t-1},C^t) = Pr(X_t | C_t), t ∈ N \] El modelo consiste de dos partes: primero, un “proceso de parámetro” no observado \({C_t:t=1,2,…}\) satisfaciendo la propiedad de Markov; y como segundo, el “proceso estado-dependiente” \({X_t:t=1,2,…}\), en el cual la distribución de \(X_t\) depende solamente en el estado actual \(C_t\) y no de estados u observaciones previas. La estructura se representa en la Figura 2.2

Si la cadena de Markov \({C_t}\) tiene m estados, llamamos \({X_t}\) una HMM de m-estados. Aunque es la terminología usual en aplicaciones de procesamiento del habla, el nombre “modelo de Markov oculto” es por ningún medio el único usado para tales o similares.

Figura 2.3 - Proceso gerenando las observaciones en un estado doble de HMM. Siguiendo la cadena 2,1,1,1,2,1

Figura 2.3 - Proceso gerenando las observaciones en un estado doble de HMM. Siguiendo la cadena 2,1,1,1,2,1

El proceso generando las observaciones es nuevamente demostrado en la Figura anterior, para distribuciones estado-dependientes \(p_1\) y \(p_2\), distribución estacionaria \(δ=(0.75,0.25)\), y t.p.m. \(\Gamma= \left(\begin{array}{cc} 0.9 & 0.1\\ 0.3 & 0.7 \end{array}\right)\). En contraste al caso de una mezcla independiente, aquí la distribución de \(C_t\), el estado en tiempo t, sí depende de \(C_(t-1)\). También es cierto de las mezclas independientes, hay para cada estado una distribución diferente, discreta o continua. Ahora introduciremos una notación la cual cubrirá tanto observaciones valuadas discretas como continuas. En el caso de observaciones discretas, definimos, para \(i=1,2,…,m\)

\[p_i(x) = Pr(X_t = x | C_t = i)\] Esto es, \(p_i\), es la función de probabilidad en masa de \(X_t\) si la cadena de Markov está en el estado i en el tiempo t. El caso continuo es tratado de manera similar: aquí definimos \(p_i\) como la función de densidad de probabilidad de \(X_t\) asociada con el estado i. Nos referimos a las m distribuciones \(p_i\) como la distribución estado-dependiente del modelo.

2.2.2 Distribuciones marginales

A menudo necesitamos las distribuciones marginales de \(X_t\) y también distribuciones marginales de orden superior, tales como \((X_t,X_{t+k})\). Derivaremos los resultados para el caso en el cual la cadena de Markov es homogénea pero no necesariamente estacionaria, y luego veremos para el caso especial en donde la cadena de Markov es estacionaria. Por conveniencia la derivación es dada solo para las distribuciones estado-dependientes discretas; el caso continuo puede ser derivado análogamente.

Distribuciones de una variable

Para observaciones de valores discretos \(X_t\), definimos \(u_i(t)=Pra(C_t=i)\quad para\quad t=1,…,T\), tenemos

\[ Pr(X_t = x) = \sum_{i=1}^m Pr(C_t = i) Pr(X_t = x |C_t = i) \\ = \sum_{i=1}^m u_i(t)p_i(x) \] La expresión puede ser convenientemente rescrita en notacion de matriz

\[ Pr(X_t = x) = (u_1(t),...,u_m(t)) \left(\begin{array}{cc} p_1(x) & 0\\ 0 & p_m(x) \end{array}\right) \left(\begin{array}{cc} 1\\ 1 \end{array}\right) \\ =u(t) P(x)1' \] Donde \(P(x)\) es definida como la matriz diagonal con su i-esimo elemento diagonal \(p_i (x)\). Tomando en cuenta la ecuación del capítulo anterior que dicta que \(u(t)=u(1) Γ^{t-1}\), y por lo tanto

\[Pr(X_t = x) = u(1)\Gamma^{t-1} P(x)1'\] Esta ecuación funciona solamente si la cadena de Markov es puramente homogénea, y no necesariamente estacionaria. Si, como lo asumiremos usualmente, la cadena de Markov es estacionaria, con distribución estacionaria \(δ\), el resultado es aún más simple: en ese caso \(δΓ^{(t-1)}=δ\) para todo \(t∈N\), y entonces

\[Pr(X_t = x) = \delta P(x)1'\]

Distribuciones de dos variables

El cálculo de muchas de las distribuciones relacionadas a un HMM es realizado más fácilmente al notar de primero que, para un modelo grafico dirigido, la distribución conjunta de un set de variables aleatorias \(V_i\) esta dada por

\[Pr(V_1,V_2,...,V_n) = \prod_{i=1}^n Pr(V_i |pa(V_i))\]

Donde \(pa(V_i )\) denota el set de todos los “parientes” de \(V_i\) en el set \(V_1,V_2,…,V_n\). En el grafico dirigido de las cuatro variables aleatorias \(X_t,X_{(t+k)},C_t,C_{(t+k)}\) (para enteros positivos k), \(C_t\) no tiene parientes, \(pa(X_t )={C_t },pa(C_{(t+k)} )={C_t}\) y \(pa(X_{(t+k)} )={C_{(t+k)}}\). Y por tanto sigue que

\[ Pr(X_t,X_{t+k},C_t,C_{t+k}) = Pr(C_t)Pr(X_t|C_t) Pr(C_{t+k}|C_t) Pr(X_{t+k}|C_{t+k}) \] Y por lo tanto dicta que:

\[ Pr(X_t = v, X_{t+k}=w) = \sum_{i=1}^m \sum_{j=1}^m u_i(t)p_i(v)\gamma_{ij}(k)p_j(w) \]

(Aquí y en cualquier otro lado, \(γ_{ij} (k)\) denota los (i,j) elementos de \(Γ^k\).) Escribiendo la suma doble superior como el productor de matrices obtenemos

\[ Pr(X_t = v, X_{t+k}=w) = u(t) P(v)\Gamma^k P(w)1' \] Si la cadena de Markov es estacionaria, esto se reduce a

\[ Pr(X_t = v, X_{t+k}=w) = \delta P(v) \Gamma^k P(w)1' \]

Similarmente, uno puede obtener expresiones para las distribuciones marginales de orden superior; en el caso estacionario, la formula para una distribución de tres variables es, para enteros positivos k y l

\[ Pr(X_t=v, X_{t+k}=w, X_{t+k+l} =z) = \delta P(v) \Gamma^k P(w) \Gamma^l P(z)1' \]

2.2.3 Momentos

Primero notemos que

\[ E(X_t) = \sum_{i=1}^m E(X_t | C_t=i ) Pr(C_t = i) = \sum_{i=1}^m u_i(t) E(X_t|C_t = i) \] En el cual, el caso estacionario se reduce a

\[ E(X_t) = \sum_{i=1}^m \delta_i E(X_t| C_t = i) \] Mas generalmente, resultados analogos aguardan para \(E(g(X_t ))\) y \(E(g(X_t,X_{t+k} ))\), para cualquier función \(g\) para las cuales expectativas estado-dependientes relevantes existen. En el caso estacionario

\[ E(g(X_t)) = \sum_{i=1}^m \delta_i E(g(X_t) | C_t =i) \] y además

\[ E(g(X_t,X_{t+k})) = \sum_{i,j=1}^m E(g(X_t,X_{t+k})|C_t = i, C_{t+k} = j) \delta_i \gamma_{ij}(k) \] A menudo también estaremos interesados en una función g la cual factoriza a

\[g(X_t, X_{t+k}) = g_1(X_t) g_2(X_{t+k})\] En cual caso la ecuación resultante termina siendo

\[ E(g(X_t,X_{t+k})) = \sum_{i,j=1}^m E(g_1(X_t)| C_t = i) E(g_2(X_{t+k})|C_{t+k}=j) \delta_i \gamma_{ij}(k) \] Estas expresiones nos permiten encontrar covarianzas y correlaciones; expresiones explicitas convenientes existen para muchos casos. Para el caso de un HMM de Poisson estacionario de dos estados:

\[ E(X_t) = \delta_1 \lambda_1 + \delta_2 \lambda_2 \\ Var(X_t) = E(X_t) + \delta_1 \delta_2(\lambda_2 - \lambda_1)^2 \geq E(X_t) \\ Cov(X_t, X_{t+k}) = \delta_1 \delta_2(\lambda_2 - \lambda_1)^2 (1 - \gamma_{12} - \gamma_{21})^k, para \quad k \in N \]

Notese que la formula resultante para la correlación de \(X_t\) y \(X_{t+k}\) es de la forma \(ρ(k)=A(1-γ_{12}-γ_{21} )^k\) con \(A∈[0,1)\), y que A=0 si \(λ_1=λ_2\).

2.3. La Posibilidad

El objetivo de esta sección es desarrollar una formula conveniente para la posibilidad de \(L_T\) de T observaciones continuas \(x_1,x_2,…,x_T\) asumida a ser generada por un HMM de m-estados. Veremos que la computación de la posibilidad, consiste de la suma de \(m^T\) términos, cada cual es un producto de 2T factores, parece requerir O(Tm^T) operaciones. Nuestro propósito aquí es demostrar que \(L^T\) puede ser en general computado simplemente relacionado en \(O(Tm^2 )\) operaciones. La manera luego será ampliada para estimar parámetros por maximización numéricas de la posibilidad. Primero, la posibilidad de modelos de dos estados será explorada, y entonces la formula general será presentada.

2.3.1. La posibilidad de un HMM de Bernoulli de dos estados

Considere el HMM estacionario de dos estados con t.p.m.

\[ \Gamma = \left(\begin{array}{cc} 1/2 & 1/2\\ 1/4 & 3/4 \end{array}\right) \quad y \quad \delta = \left(\begin{array}{cc} 1/3, 2/3 \end{array}\right) \]

Y distribuciones estado-dependientes dadas por

\[ Pr(X-t =x | C_t = 1) = 1/2 \quad(para\quad x =0,1) \\ Pr(X-t =1 | C_t = 2) = 1 \]

Llamaremos un modelo de este tipo un HMM de Bernoulli. . Considere la probabilidad \(Pra(X_1=X_2=X_3=1\). Primero, note que, por ecuaciones anteriores,

\[ Pra(X_1,X_2,X_3,C_1,C_2,C_3 )=Pra(C_1 ) Pra(X_1│C_1 ) Pra(C_2│C_1 ) Pra(X_2│C_2 ) Pra(C_3│C_2 ) Pra(X_3 |C_3); \] luego sumarmos los valores asumidos por \(C_1,C_2,C_3\). El resultado es:

\[ Pr(X_1=1, X_2 = 1, X3=1) \\ = \sum_{i=1}^2 \sum_{j=1}^2 \sum_{k=1}^2 Pr(X_1 = 1,X_2=1,X_3=1, C_1 =i, C_2=j, C_3=k) \\ = \sum_{i=1}^2 \sum_{j=1}^2 \sum_{k=1}^2 \delta_i p_i(1) \gamma_{ij} p_j(1) \gamma_{jk} p_k(1) \] Note que la triple suma de la ecuación anterior tiene \(m^T=2^3\) términos, cada del cual es producto de \(2T=2 x 3 \)factores. Para evaluar la probabilidad requerida, las diferentes posibilidades para los valores de i,j y k pueden ser listados y la suma calculada como en la siguiente tabla

Probabilidad de la probabilidad de una HMM Bernoulli

Probabilidad de la probabilidad de una HMM Bernoulli

La suma de la última columna de la tabla anterior nos dice que \(Pra(X_1=1,X_2=1,X_3=1)=29/48\) . Al observar notamos que el elemento más grande en esa columna es 3/8; la secuencia de estados que maximiza la probabilidad conjunta

\[Pr(X_1 = 1,X_2=1,X_3=1, C_1 =i, C_2=j, C_3=k)\] Es entonces la secuencia \(i=2,j=2,k=2\). Equivalentemente, maximiza la probabilidad condicional \(Pra(C_1=i,C_2=j,C_3=k| X_1=1,X_2=1,X_3=1)\). Pero una manera mas conveniente de presentar la sumar es utilizar notación de matriz. Definamos P(u) como \(diag(p_1 (u),p_2 (u))\). Entonces

\[ P(0) = \left(\begin{array}{cc} 1/2 & 0\\ 0 & 0 \end{array}\right) \quad y \quad P(1)= \left(\begin{array}{cc} 1/2 & 0\\ 0 & 1 \end{array}\right) \] Y la triple suma anterior puede ser escrita como el producto de una matriz

\[ δP(1)ΓP(1)ΓP(1)1' \]

2.3.2. La posibilidad en general

Aquí consideramos la posibilidad de un HMM en general. Suponemos hay una secuencia de observación \(x_1,x_2,…,x_T \)generada por tal modelo. Buscamos la probabilidad \(L_T\) de observar esa secuencia, según lo calculado bajo un HMM de m-estados el cual tiene una distribución inicial \(δ\) y t.p.m. \(Γ\) para la cadena de Markov, funciones de probabilidad estado-dependientes \(p_i\).

Proposicion 1: La probabilidad es dada por

\[ L_T = \delta P(x_1)\Gamma P(x_2) \Gamma P(x_3) \quad ... \quad \Gamma P(x_T)1' \] si \(\delta\), la distribucioón de \(C_1\), si es una distribucion estacionaria de la cadena de Markov, entonces:

\[ L_T = \delta \Gamma P(x_1)\Gamma P(x_2) \Gamma P(x_3) \quad ... \quad \Gamma P(x_T)1' \]

Una simple pero crucial consecuencia de la expresión matricial para la posibilidad es el “algoritmo de avance” para computación recursiva de la posibilidad. Tal computación recursiva juega un rol clave, no solo en evaluación de la posibilidad y por tanto estimación de parámetros, pero también en predecir, decodificar y revisar modelos. La naturaleza recursiva de tal evaluación de posibilidad vía la Proposición 1 es computacionalmente mucho mas efectivo que suma de fuerza bruta sobre todas las secuencias de estado posible. El hecho que tales esquemas computacionales recursivos no costosos pueden ser utilizados para abordar varias preguntas de interés es una característica clave de los HMMs. Para definir el algoritmo de avance, definimos el vector \(α_t\) para \(t=1,2,…,T\), por

\[ \alpha_t = \delta P(x_1)\Gamma P(x_2) \Gamma P(x_3) \quad ... \quad \Gamma P(x_t) = \delta P(x_1) \prod_{s=2}^t \Gamma P(x_s) \] Con la convención que un producto vacío es la matriz identidad. Sigue inmediatamente de esta definición que

\[ L_T = \alpha_T 1' \quad y \quad \alpha_t = \alpha_{t-1} \Gamma P(x_t) \quad para \quad t \ge 2 \] Acordemente, podemos convenientemente fijar como sigue las computaciones involucradas en la fórmula de posibilidad

\[ \alpha_1 = \delta P(x_1) \\ \alpha_t = \alpha_{t-1} \Gamma P(x_t) \quad para \quad t =2,3,...,T \\ L_T = \alpha_T 1' \]

El número de operaciones involucradas es de orden \(Tm^2\) puede ser deducido así. Para cada uno de los valores de t en el ciclo, hay m elementos de \(α_t\) por ser computados, y cada uno de esos elementos es una suma de m productos de tres cantidades: un elemento de \(α_{t-1}\), una probabilidad de transición \(γ_{ij}\), y una probabilidad (o densidad) estado-dependiente \(p_j (x_t)\).

El esquema de correspondiente para la computación de la Propuesta 1 es

\[ \alpha_0 = \delta \\ \alpha_t = \alpha_{t-1} \Gamma P(x_t) \quad para \quad t =1,2,...,T \\ L_T = \alpha_T 1' \] Los elementos del vector \(α_t\) son usualmente referidos como probabilidades de avance; donde mostramos que el j-esimo elemento de \(α_t\) es \(Pra(X^{(t)}=x^{(t)},C_t=j\). A continuación, mostramos código de R que utiliza el algoritmo de avance para evaluar la posibilidad de observaciones \(x_1,…x_T\) bajo un HMM de Poisson con por lo menos dos estados, t.p.m. \(Γ\), vector de medias estado-dependientes \(λ\), y distribución inicial \(δ\).

alpha <- delta*dpois(x[1], lambda)
for(i in 2:T) 
  alpha <- %*% Gamma*dpois(x[i],lambda)
sum(alpha)

En la discusión superior hemos utilizado la expresión de múltiples sumas para la posibilidad para así llegar a la expresión matricial, y luego utilizado la expresión matricial para llegar a la recursión de avance. Una ruta alternativa es definir el vector de avance de probabilidades \(α_t\) por

\[ \alpha_t(j) = Pr(X^{(t)} = x^{(t)}, C_t = j), j=1,2,...,m \] Y luego deducir la recursión de avance

\[ \alpha_t = \alpha_{t-1} \Gamma P(x_t) \] La expresión matricial es entonces una simple consecuencia de la recursión de avance.

2.3.3 HMMs no son procesos de Markov

HMMs no satisfacen en general la propiedad de Markov. Esto lo podemos demostrar mediante un simple contrajemplo. Basado en la seccion 2.3.1 sabemos que:

\[ Pr(X_1=1,X_2=1,X_3=1) = \frac{29}{48} \\ Pr(X_2=1) = \frac{5}{6} \\ entonces \\ Pr(X_1,X_2=1) = Pr(X_2=1,X_3=1) = \frac{17}{24} \\ por \quad tanto \quad se\quad deduce\quad que \\ Pr(X_3=1 | X_1=1,X_2=1) = \frac{Pr(X_1=1,X_2=1,X_3=1)}{Pr(X_1=1,X_2=1)} = \frac{29/48}{17/24} \\ y \quad eso \\ Pr(X_3=1|X_2=1) = \frac{Pr(X_2=1,X_3=1)}{Pr(X_2=1)} = \frac{17/24}{5/6} = 17/20 \]

Por lo tanto \(Pra(X_3=1|X_2=1)≠Pra(X_3=1|X_1=1,X_2=1\); este HMM no satisface la propiedad de Markov. Para las condiciones bajo las cuales un HMM si satisface la propiedad de Markov.

2.3.4. La posibilidad cuando hay datos faltantes

En el contexto de una serie de tiempo es potencialmente raro si algunos de los datos faltan. En el caso de series de tiempo de modelos ocultos de Markov, sin embargo, el ajuste que se necesita ser realizado para la computación de la posibilidad si hay datos faltantes resulta ser uno fácil. Suponga, por ejemplo, que uno tiene disponible las observaciones \(x_1,x_2,x_4,x_7,x_8,…,x_T\) de un HMM pero \(x_3,x_5 \quad y \quad x_6 \)hacen falta. Entonces la posibilidad de las observaciones esta dada por

\[ Pr(X_1=x1,X_2=x2,X_4=x_4,X_7=x_7,X_8=x_8,...,,X_T=x_T) = \\ \sum \delta_{c_1}\gamma_{c1,c2}\gamma_{c2,c4}(2) \gamma_{c4,c7} (3) \gamma_{c7,c8} \quad ... \quad \gamma_{c_{T-1},c_T} \\ \times p_{c_1} (x_1) p_{c2}(x_2) p_{c4}(x_4) p_{c7}(x_7)\quad ... \quad p_{c_T}(x_T) \]

Donde (como antes) \(γ_{ij} (k)\) denota una probabilidad de transición de paso k, y la suma se toma sobre todos los índices \(c_t\) diferentes de \(c_3,c_5 y c_6\). Pero esto es solamente

\[ \sum \delta_{c_1} p_{c_1} (x_1) \gamma_{c_1},c_2p_{c_2} (x_2) \gamma_{c_2},c_4(2)p_{c_4} (x_4) \gamma_{c_4},c_7(3)p_{c_7} (x_7) \gamma_{c_7} \quad \times...\times \quad \gamma_{c_T-1}, c_T p_{c_T}(x_T)= \\ \delta P(x_1) \Gamma P(x_2)\Gamma^2 P(x_4) \Gamma^3 P(x_7)...\Gamma P(x_T)1' \]

Con \(L_T^{-(3,5,6)}\) denotando la posibilidad de las observaciones (diferentes de las faltantes), se declara que

\[ L_T^{-(3,5,6)} = P(x_1) \Gamma P(x_2)\Gamma^2 P(x_4) \Gamma^3 P(x_7)...\Gamma P(x_T)1' \]

En general, la expresión para la posibilidad de matrices diagonales \(P(x_t)\) correspondiente a las observaciones faltantes \(x_t\) son remplazadas por la matriz identidad; eso es, las probabilidades estado-dependientes correspondientes \(p_i (x_t )\) son remplazadas por 1 para todos los estados i.

2.3.5. La posibilidad cuando las observaciones son censoradas por intervalo

Suponga que deseamos ajustar un HMM de Poisson a una serie de cuentas, algunas de las cuales son censoradas por intervalo. Por ejemplo, el valor de \(x_t\) puede ser conocido para \(4≤t≤T\), con la información \(x_1≤5,2≤x_2≤3\) y \(x_3>10\) disponible acerca de las observaciones restantes. Para simplificar, asumamos de primero que la cadena de Markov solo tiene dos estados. En ese caso, uno remplaza las matrices diagonales \(P(x_i )(i=1,2,3)\) en la expresión de posibilidad por las matrices

\[ diag(Pr(X_1 \le |C_1 =1), Pr(X_1 \le 5| C_1=2)), \\ diag(Pr(2 \le X_2 \le 3 | C_2=1),Pr(2 \le X_2 \le 3 | C_2=2)) \\ diag(Pr(X_3 \gt 10 | C_3 = 1), Pr(X_3 \gt 10 | C_3 = 2)) \]

Mas generalmente, suponga que \(a≤x_t≤b\) donde a puede ser \(-∞\) (aunque eso no es relevante para el caso de Poisson), b puede ser \(∞\), y la cadena de Markov tiene m estados. Uno remplaza \(P(x_t)\) en la posibilidad por la matriz diagonal \(m×m\) de la cual el elemento diagonal i-esimo es \(Pra(a≤X_t≤b|C_t=i)\)

