INTRODUCCIÓN A LA INFERENCIA BAYESIANA

Author

Jaime Turrión

Published

December 9, 2025

0. Introducción: Inferencia Bayesiana en acción

Imagina que acabamos de terminar varias partidas a un juego de mesa con dados. Mientras guardamos el material, lanzo un dado y lo cubro con la mano.
“¿Qué probabilidad hay de que haya salido un 6?”, te pregunto.
“La probabilidad es de \(1/6\)”, respondes con seguridad.

Entonces revelo información adicional: «El número es par».
Ahora debes actualizar tu creencia inicial, y la probabilidad de que sea un 6 pasa a ser \(1/3\).

Revelo aún más: «Y no es un 4».
Con la nueva información, la probabilidad vuelve a actualizarse: ahora vale \(1/2\).

Cada vez que recibes un dato nuevo, ajustas tu creencia previa.
Acabas de realizar inferencia bayesiana sin darte cuenta.

Ahora piensa en una situación cotidiana muy distinta: lees un rumor en redes sociales sobre un personaje famoso. Tienes una opinión previa (quizá tenue) sobre si el rumor es creíble. Más tarde aparece una foto dudosa, después un comentario ambiguo y finalmente una fuente aparentemente fiable.

En cada paso estás haciendo algo fundamental:

Actualizas tu creencia a medida que llega nueva evidencia.

Este proceso es natural en nuestra vida diaria, pero no está bien capturado por la estadística frecuentista tradicional.
Conceptos como los p-valores o los intervalos de confianza no responden directamente preguntas como:

  • “¿Cuál es la probabilidad de que esta afirmación sea verdadera, dados los nuevos datos?”
  • “¿Cómo cambia mi opinión después de observar una evidencia adicional?”
  • “¿Qué probabilidad tiene un evento que no puedo repetir muchas veces?”

Sin embargo, este tipo de preguntas son habituales cuando trabajamos con información incierta, incompleta o ruidosa.

La inferencia bayesiana sí permite responderlas de manera coherente. Nos ofrece un marco claro para:

  • expresar incertidumbre mediante grados de creencia,
  • incorporar información previa o conocimiento experto,
  • actualizar esas creencias cuando aparece nueva evidencia,
  • interpretar las probabilidades de una forma intuitiva y directa.

En las siguientes secciones formalizaremos este proceso de actualización y veremos cómo el Teorema de Bayes nos permite integrar de forma rigurosa la información previa y los datos observados.

1. Estadística Bayesiana versus Estadísitca Clásica

1.1 ¿Qué hemos hecho hasta ahora con la “Estadística Clásica”?

Hasta ahora, cuando hemos hecho análisis estadístico, partíamos siempre de una misma situación:
quiero saber algo sobre una característica de interés, pero existe incertidumbre.

Por ejemplo:

  • ¿Cuál es la estatura media de los alumnos de la facultad?
  • ¿Qué proporción de clientes prefiere un determinado producto?
  • ¿Es efectivo un nuevo medicamento?

La forma “clásica” o frecuentista de abordar estas preguntas ha sido:

tomar una muestra y estimar la característica de interés.

Primero calculamos un estimador (media, proporción, diferencia de medias…), y después solemos construir intervalos de confianza o realizar contrastes de hipótesis utilizando p-valores.

Veamos unos ejemplos sencillos.

Ejemplo 1: estimación de una proporción mediante intervalo de confianza

Supongamos que quiero saber qué proporción de estudiantes utiliza el móvil durante las clases.
Con el procedimiento clásico podría hacer lo siguiente:

  1. Encuestar aleatoriamente a \(n = 100\) estudiantes.
  2. Observar que 72 estudiantes contestan que utilizan el móvil.
  3. Estimar la proporción muestral: \[ \hat{p} = \frac{72}{100} = 0.72. \]
  4. Calcular el intervalo de confianza del 95 %: \[ \hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = 0.72 \pm 0.088, \] es decir, \[ [0.632,\ 0.808]. \]

Como resultado, obtenemos un intervalo de confianza al 95 %: \[ [0.632,\ 0.808]. \]

La pregunta clave es:

¿Cuál es la interpretación correcta de este intervalo?

    1. “Hay un 95 % de probabilidad de que \(p\) esté entre 0.632 y 0.808”.
    1. “Si repitiéramos el experimento muchas veces, el 95 % de los intervalos construidos contendrían al verdadero \(p\)”.

La respuesta (aunque es incómoda) es la (B).

¿Por qué no la (A)? En la estadística clásica (frecuentista):

  • el parámetro \(p\) se considera un número fijo (aunque desconocido),
  • por tanto, no tiene sentido hablar de “probabilidad” de que \(p\) esté en un intervalo: o está, o no está.

El intervalo de confianza nos dice algo sobre el procedimiento (su comportamiento a largo plazo si repitiéramos el muestreo muchas veces), no sobre la probabilidad de que el parámetro esté en un rango concreto en este problema particular.

Sin embargo, la interpretación que la mayoría de la gente desea —y que muchos estudiantes hacen de forma espontánea— es precisamente la (A).

Ejemplo 2: contraste de hipótesis y p-valor

Ahora pensemos en un problema de decisión más aplicado. Supongamos que queremos saber si una campaña de marketing aumenta el gasto turístico medio por cliente. Planteamos:

  • Grupo de control (1): clientes sin campaña (no reciben la promoción).
  • Grupo de tratamiento (2): clientes con campaña (sí reciben la promoción).

Formulamos las hipótesis:

  • \(H_0\): la campaña no cambia el gasto medio por cliente (\(\mu_1 = \mu_2\)).
  • \(H_1\): la campaña sí cambia el gasto medio por cliente (\(\mu_1 \neq \mu_2\)).

El procedimiento clásico sería:

  1. Recoger datos de gasto para ambos grupos.
  2. Calcular la diferencia de medias entre tratamiento y control.
  3. Calcular un estadístico de contraste y el correspondiente p-valor.
  4. Aplicar una regla del tipo: si \(p < 0.05\), consideramos que la diferencia es “significativa” y concluimos que la campaña tiene efecto.

Hasta aquí, todo suena familiar. Pero, ¿qué nos está dando realmente el p-valor?

Lo que el p-valor calcula es:

\(P(\text{datos tan extremos o más extremos que los observados} \mid H_0\ \text{es cierta})\),

es decir, la probabilidad de observar datos como los que hemos visto (o más extremos) suponiendo que \(H_0\) fuera verdadera.

Sin embargo, lo que el investigador suele querer saber es:

\(P(H_0 \mid \text{datos})\),
es decir, la probabilidad de que la hipótesis nula sea cierta dados los datos observados.

Esta es una diferencia fundamental: el p-valor nos da \(P(\text{datos} \mid H_0)\), pero no nos da \(P(H_0 \mid \text{datos})\). Y pasar de una a otra no es posible sin información adicional (por ejemplo, sobre la plausibilidad previa de \(H_0\)).

En la práctica, muchos científicos interpretan un p-valor pequeño como si implicara que la probabilidad de que \(H_0\) sea cierta es baja.
Conceptualmente, esto es incorrecto: el p-valor mide la rareza de los datos bajo \(H_0\), no la credibilidad de la hipótesis después de ver los datos.

Definición formal: El p-valor es la probabilidad de observar datos tan extremos o más extremos que los observados, asumiendo que \(H_0\) es verdadera.

Limitaciones del enfoque clásico

Los dos ejemplos anteriores ilustran varias limitaciones del enfoque frecuentista cuando intentamos responder a las preguntas que realmente nos interesan:

  1. Los intervalos de confianza no responden a la pregunta intuitiva sobre la probabilidad del parámetro.
    No podemos decir “hay un 95 % de probabilidad de que (p) esté en el intervalo”, aunque eso sea lo que la mayoría de las personas entiende de manera natural.

  2. El p-valor condiciona en la dirección “equivocada” para nuestras preguntas científicas.
    Nos da (P( H_0)), cuando en realidad querríamos (P(H_0 )).
    Esto conduce con facilidad a interpretaciones erróneas.

  3. La interpretación frecuentista de la probabilidad es estrecha para muchos problemas reales.
    Se define como frecuencia relativa en repeticiones hipotéticas de un experimento, pero muchas situaciones importantes (eventos únicos, decisiones singulares, predicciones sobre el futuro inmediato…) no encajan bien en esta visión.

Estas limitaciones no invalidan la estadística clásica —que sigue siendo muy útil—, pero sí muestran que, en muchos contextos científicos y aplicados, nos quedamos cortos si solo disponemos de intervalos de confianza y p-valores para cuantificar la incertidumbre.

Precisamente estas carencias son las que abren la puerta a un enfoque alternativo: la estadística bayesiana, que permitirá interpretar la probabilidad como grado de creencia coherente y actualizarla de manera explícita cuando incorporamos nueva información.

1.2 La probabilidad Subjetiva

En muchas situaciones reales no podemos definir la probabilidad de un evento como una frecuencia relativa observada en un gran número de repeticiones. Aun así, necesitamos asignar una probabilidad para expresar nuestra incertidumbre.

Ejemplos cotidianos:

  • la probabilidad de que mañana llueva,
  • la probabilidad de que un proyecto empresarial tenga éxito,
  • la probabilidad de que un equipo gane un partido,
  • la probabilidad de que un cliente abandone la empresa (churn).

Ninguna de estas situaciones puede repetirse miles de veces en condiciones idénticas, y sin embargo es razonable —y útil— asignar probabilidades.

Aquí aparece la probabilidad subjetiva:

La probabilidad subjetiva representa el grado de creencia racional que una persona tiene acerca de un evento, dada la información disponible.

Pero “subjetiva” no significa “arbitraria”.
Esa probabilidad debe cumplir los axiomas de la probabilidad para ser coherente.
Solo así se evita caer en contradicciones lógicas.

Coherencia y axiomas

Para que una probabilidad subjetiva sea válida, debe respetar reglas básicas como:

  • \(0 \leq P(A) \leq 1\)
  • \(P(A) + P(A^c) = 1\)
  • \(P(A \cup B) = P(A) + P(B)\) si \(A\) y \(B\) son excluyentes

Cuando estas reglas no se respetan, la asignación subjetiva se vuelve incoherente. Esta idea fue desarrollada por de Finetti:
si alguien asigna probabilidades que violan los axiomas, puede ser llevado a aceptar apuestas que le harán perder dinero con certeza (el famoso Dutch book argument).

Por tanto:

La subjetividad es posible, pero está estrictamente regulada por la coherencia probabilística.

Ejemplo probabilidad subjetiva

Supongamos que una persona asigna las siguientes probabilidades subjetivas:

  • \(P(\text{lluvia}) = 0.7\)
  • \(P(\text{no lluvia}) = 0.5\)

Estas probabilidades violan la regla \(P(A) + P(A^c) = 1\).

Alguien podría ofrecerle dos apuestas:

  1. Paga 0.7 € y recibe 1 € si llueve.
  2. Paga 0.5 € y recibe 1 € si no llueve.

Independientemente del tiempo que haga, ha pagado 1.2€ y solo puede recuperar 1€.
Pierde 0.2€ con certeza.

Este ejemplo muestra que la probabilidad subjetiva no puede ser caprichosa:
debe cumplir los axiomas para ser coherente.

Conexión con la inferencia bayesiana

Este enfoque permite tratar probabilidades de manera flexible y realista:

  • podemos asignar probabilidades a parámetros,
  • podemos incorporar información previa,
  • podemos actualizar creencias cuando aparecen nuevos datos.

Es precisamente esta interpretación de la probabilidad como grado de creencia coherente la que da sentido al enfoque bayesiano que desarrollaremos en los siguientes apartados.

1.3 El problema en la práctica científica

Con lo que hemos visto hasta ahora, podemos resumir así la situación:

  • La estadística clásica nos da herramientas como intervalos de confianza y p-valores.
  • La probabilidad subjetiva nos permite hablar de grados de creencia coherentes.

Sin embargo, en la práctica científica y aplicada surgen una y otra vez problemas que el enfoque clásico no resuelve de forma directa, especialmente cuando lo que queremos es responder preguntas del tipo:

“¿Cuál es la probabilidad de que esta hipótesis sea cierta dados los datos observados?”

Es decir, queremos \(P(H \mid \text{datos})\), no solo \(P(\text{datos} \mid H)\).

1.3.1 Lo que queremos saber (y lo que realmente calculamos)

En la mayoría de los contextos científicos, lo que interesa al investigador es algo como:

  • ¿Cuál es la probabilidad de que el nuevo fármaco sea realmente eficaz, dados los datos del ensayo?
  • ¿Cuál es la probabilidad de que esta variable tenga un efecto positivo sobre los beneficios de la empresa?
  • ¿Cuál es la probabilidad de que un modelo explique bien los datos frente a otro modelo alternativo?

Formalmente, eso es \(P(H \mid \text{datos})\): la probabilidad de la hipótesis condicionada a los datos.

Sin embargo, las herramientas clásicas (p-valores, contrastes, intervalos de confianza) trabajan con cantidades del tipo:

  • \(P(\text{datos} \mid H_0)\): la probabilidad de observar datos tan extremos (o más) asumiendo que \(H_0\) es cierta.

Es decir, condicionan en la dirección opuesta a la que querríamos para responder a las preguntas científicas más naturales.

1.3.2 Un ejemplo intuitivo: sospechosos y evidencias

Imagina una investigación criminal. La policía tiene a una persona sospechosa y encuentra una huella parcial en la escena del crimen. Los peritos estiman que:

  • si la persona es culpable, la probabilidad de encontrar una huella compatible es alta;
  • si es inocente, la probabilidad de que la huella sea compatible es pequeña, pero no cero (otras personas pueden compartir ciertas características).

Lo que verdaderamente interesa al juez o al jurado es:

“Dada la huella compatible, ¿cuál es la probabilidad de que el sospechoso sea culpable?”

Es decir, \(P(\text{Culpable} \mid \text{Huella compatible})\).

Pero los informes periciales suelen estar expresados en términos de:

  • \(P(\text{Huella compatible} \mid \text{Culpable})\)
  • \(P(\text{Huella compatible} \mid \text{Inocente})\)

Si confundimos estas dos direcciones, podemos llegar a conclusiones muy erróneas:

  • una evidencia “poco probable si es inocente” no implica necesariamente que la probabilidad de culpabilidad sea alta;
  • necesitamos combinar esa información con lo probable que era la culpabilidad antes de ver la huella (la probabilidad a priori).

Este tipo de confusión es análogo a lo que ocurre con los p-valores: saber que los datos serían raros si \(H_0\) fuese cierta no es lo mismo que saber si \(H_0\) es o no es creíble después de ver los datos.

1.3.3 El papel de la información previa en ciencia

Un punto clave que aparece constantemente en la práctica científica es que rara vez partimos de “cero información”. Antes de observar datos:

  • los investigadores tienen experiencia,
  • existen estudios previos,
  • las teorías económicas ofrecen rangos plausibles,
  • los modelos del pasado condicionan las expectativas actuales.

Sin embargo, la estadística clásica no incorpora explícitamente esa información previa en el cálculo de probabilidades sobre hipótesis.

Esto provoca dos problemas prácticos:

  1. No podemos cuantificar probabilidades sobre hipótesis, porque el marco frecuentista no las define.
  2. No podemos incorporar conocimiento previo, aunque sea fiable y relevante.

La estadística bayesiana sí permite hacerlo:

  • se especifica un prior que recoge la información previa,
  • se combina con los datos mediante la verosimilitud,
  • se obtiene una posterior que representa la creencia actualizada.

Esto permite responder a la pregunta fundamental:

“¿Qué debo creer ahora, teniendo en cuenta lo que creía antes y lo que muestran los datos?”

1.3.4 Hacia el Teorema de Bayes

En resumen, el problema central en la práctica científica es que:

  • queremos probabilidades sobre hipótesis dadas las evidencias (\(P(H \mid \text{datos})\)),
  • pero muchas herramientas tradicionales nos dan solo probabilidades sobre datos condicionadas a hipótesis (\((P(\text{datos} \mid H)\)),
  • y además necesitamos una forma coherente de incorporar la información previa disponible.

El Teorema de Bayes proporciona precisamente la regla general que conecta estas dos direcciones de la probabilidad y nos permite actualizar nuestras creencias de manera coherente:

A partir de una probabilidad previa sobre la hipótesis y de la probabilidad de los datos bajo esa hipótesis, obtenemos la probabilidad actualizada de la hipótesis dada la evidencia.

En el siguiente apartado formalizaremos esta idea y veremos cómo el Teorema de Bayes surge de las reglas básicas de la probabilidad.

2. El Teorema de Bayes

En las secciones anteriores hemos visto dos ideas fundamentales:

  1. Muchas preguntas científicas requieren calcular probabilidades del tipo \(P(H \mid D)\).
  2. La probabilidad subjetiva, siempre que sea coherente, permite expresar grados de creencia sobre sucesos e hipótesis.

Lo que necesitamos ahora es una regla general y única que permita actualizar nuestras creencias cuando recibimos nueva información. Esa regla existe, deriva directamente de los axiomas de probabilidad y es el Teorema de Bayes.

Pero antes de presentarlo formalmente, repasamos algunas relaciones básicas entre probabilidades que nos permitirán comprender que Bayes no es una idea extra añadida a la teoría, sino la consecuencia natural de cómo funciona la probabilidad.

2.1 Repaso mínimo de probabilidad

Para deducir Bayes, solo necesitamos cuatro conceptos básicos: probabilidad simple, conjunta, condicional y marginal.

Probabilidad simple: La probabilidad de un suceso \(A\) mide cuán plausible consideramos que ocurra, dada la información disponible: \[ P(A) \]

Probabilidad conjunta: La probabilidad de que ocurran simultáneamente dos sucesos \(A\) y \(B\) es: \[ P(A \cap B) \]

Probabilidad condicional: La probabilidad de que ocurra \(A\) sabiendo que ha ocurrido \(B\) es: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)}. \]

Interpretación intuitiva:

“De todas las situaciones donde sabemos que ha ocurrido \(B\), ¿en qué porcentaje ocurre también \(A\)?”

Probabilidad marginal: Para obtener la probabilidad total de un suceso, sumamos todas las maneras en que puede ocurrir: \[ P(A) = P(A \cap B) + P(A \cap \bar{B}). \]

2.2 Deducción del Teorema de Bayes

Partimos de dos expresiones equivalentes de la probabilidad conjunta:

  1. \[ P(A \cap B) = P(A)\,P(B \mid A) \]

  2. \[ P(A \cap B) = P(B)\,P(A \mid B) \]

Ambas representan exactamente el mismo suceso conjunto. Igualando:

\[ P(A)\,P(B \mid A) = P(B)\,P(A \mid B). \]

Despejamos la probabilidad condicional que nos interesa:

\[ P(A \mid B) = \frac{P(B \mid A)\,P(A)}{P(B)}. \]

Esta es la forma básica del Teorema de Bayes.

Sustituimos ahora la probabilidad total de \(B\):

\[ P(B) = P(B \mid A)P(A) + P(B \mid \bar{A})P(\bar{A}). \]

Obtenemos la forma completa:

\[ P(A \mid B) = \frac{P(B \mid A)\,P(A)} {P(B \mid A)P(A) + P(B \mid \bar{A})P(\bar{A})}. \]

Esta fórmula es la que utilizaremos de forma sistemática en inferencia bayesiana.

2.3 Interpretación en términos de inferencia

Para trabajar en inferencia estadística, renombramos:

  • \(H\): hipótesis (lo que queremos saber)
  • \(D\): datos (lo que hemos observado)

Con estos nombres, Bayes se expresa como:

\[ P(H \mid D) = \frac{P(D \mid H)\,P(H)}{P(D)}. \]

donde:

  • \(P(H)\) es el prior: lo que creemos antes de ver los datos
  • \(P(D \mid H)\) es la verosimilitud: mide cuán compatibles son los datos con la hipótesis
  • \(P(H \mid D)\) es el posterior: lo que creemos después de ver los datos
  • \(P(D)\) es una constante que normaliza la función para que sume 1

Podemos resumir la idea fundamental así:

\[ \text{Posterior} \propto \text{Verosimilitud} \times \text{Prior}. \]

O en palabras:

Nueva creencia = Compatibilidad con los datos × Creencia inicial (normalizado).

Esta relación será el eje de todo el enfoque bayesiano.

2.4 Antes de Bayes: por qué la evidencia no basta

Para entender la necesidad del Teorema de Bayes, es útil ver un ejemplo muy sencillo en el que la intuición puede fallar.

Imaginemos que se ha producido un robo en un edificio y aparece una huella parcial. La policía analiza la huella y observa que coincide con un vecino concreto.

Tendemos a pensar:

“Si la huella coincide, es muy probable que sea el culpable.”

Pero esta conclusión es incorrecta si no sabemos cuán probable era antes que esa persona cometiera el robo.

Supongamos que:

  • solo el 1% de los vecinos podría estar implicado (probabilidad previa),
  • una persona culpable deja una huella compatible con probabilidad 0.8,
  • una persona inocente puede coincidir con probabilidad 0.1.

Aunque la coincidencia parece “fuerte”, la probabilidad final depende de combinar:

  • lo que creíamos antes (1% de sospecha)
  • con lo que indican los datos (huella compatible)

Este ejemplo muestra el mensaje central:

La evidencia por sí sola no determina la probabilidad de una hipótesis.
La probabilidad final depende siempre de combinar información previa y datos.

Eso es exactamente lo que hace el Teorema de Bayes.

2.5 Hacia un ejemplo real: los tests diagnósticos

El ejemplo del sospechoso nos da la intuición básica: cuando recibimos una evidencia (una huella compatible, un resultado positivo…), su interpretación depende también de lo que creíamos antes.

Para ver esta idea en una situación real y muy relevante, analizaremos ahora un caso clásico:

¿Cuál es la probabilidad de estar enfermo si el test ha dado positivo?

Este ejemplo es especialmente útil porque:

  • muestra de manera clara cómo las probabilidades previas (prevalencia) afectan al resultado,
  • permite ver cómo Bayes corrige intuiciones erróneas,
  • y utiliza números fáciles de interpretar.

Con esta motivación, ya estamos listos para aplicar el Teorema de Bayes a un caso práctico.

2.6 Ejemplo clásico: ¿Qué probabilidad tengo de estar enfermo si el test da positivo?

Para ver cómo funciona el Teorema de Bayes en una situación real, consideremos el caso de un test diagnóstico. Estos problemas son famosos porque la intuición humana tiende a equivocarse, sobre todo cuando la enfermedad es poco frecuente.

Queremos calcular la probabilidad de estar enfermo (\(E\)) dado que un test médico ha salido positivo (\(T^+\)).

\[ P(\text{Enfermo} \mid \text{Test positivo}). \] Para aplicar Bayes necesitamos tres ingredientes:

  1. La probabilidad previa de estar enfermo (prevalencia):
    Supongamos que la enfermedad afecta al \(0.1\%\) de la población:
    \[ P(E) = 0.001. \]

  2. La sensibilidad del test (probabilidad de dar positivo si se está enfermo):
    \[ P(T^+ \mid E) = 0.99. \]

  3. La probabilidad de dar un falso positivo:
    \[ P(T^+ \mid \bar{E}) = 0.05. \]

Con estos números, la intuición suele sugerir:

“Si el test acierta el 99% de las veces, un positivo significa casi seguro que estoy enfermo.”

Veamos si es cierto.

Aplicamos Bayes:

\[ P(E \mid T^+) = \frac{P(T^+ \mid E)\,P(E)} {P(T^+ \mid E)\,P(E) + P(T^+ \mid \bar{E})\,P(\bar{E})}. \]

Sustituyendo:

\[ P(E \mid T^+) = \frac{0.99 \cdot 0.001} {0.99 \cdot 0.001 + 0.05 \cdot 0.999}. \]

Calculamos:

\[ P(E \mid T^+) \approx 0.0194. \]

El resultado sorprendente: un 1.94%.

A pesar de un test muy preciso, la probabilidad de estar realmente enfermo tras un resultado positivo es mucho menor de lo esperado. ¿Por qué?

La clave: la prevalencia es muy baja: Cuando la enfermedad es extremadamente rara:

  • la mayoría de positivos provienen de personas sanas (falsos positivos),
  • y el test, aunque bueno, no puede compensar ese desequilibrio.

Bayes corrige nuestra intuición al obligarnos a incluir la prevalencia en el cálculo.

Vamos a intentar entender el resultado con datos:

De cada 100.000 personas:

  • 100 están realmente enfermas → 99 dan positivo.
  • 99.900 están sanas → un 5% de ellas, es decir, 4.995, también dan positivo.

En total hay 5.094 positivos, pero solo 99 son enfermos.

Así, la probabilidad real es:

\[ \frac{99}{5094} \approx 0.0194. \]

¿Por qué el resultado es tan bajo?

  • El prior era muy bajo (0,1% de prevalencia).

  • Aunque el test es bueno, los falsos positivos de los sanos dominan.

  • Hay muchísimos más sanos que enfermos.

¿Qué aprendemos de este ejemplo

  1. Los datos no se interpretan sin contexto. La probabilidad previa es crucial (el prior importa). Si la prevalencia es muy baja, incluso tests muy buenos pueden producir resultados engañosos
  2. Un test preciso no garantiza seguridad diagnóstica si la prevalencia es baja.. La verosimilitud sola no basta. Aunque el test tenga buena sensibilidad, debemos combinarla con la información previa.
  3. Bayes formaliza cómo combinar evidencia y conocimiento previo. Es decir, Bayes corrige la intuición humana Nuestra intuición tiende a ignorar los falsos positivos cuando la prevalencia es baja.
  4. Este razonamiento será idéntico cuando pasemos a estimar parámetros.

A modo de moraleja, el prior importa mucho, y no puedes interpretar evidencia sin saber qué tan probable era la hipótesis antes de verla.Con esta comprensión, ya estamos preparados para pasar del mundo de los sucesos al de los parámetros desconocidos y ver cómo Bayes permite estimarlos de forma coherente.

3. Estimación de parámetros

En el capítulo anterior hemos visto cómo el Teorema de Bayes permite actualizar probabilidades de sucesos o hipótesis cuando aparece nueva información. Ahora vamos a aplicar esa misma idea a un caso central en estadística: la estimación de parámetros.

Supongamos que queremos estimar un parámetro desconocido \(\theta\). La clave del enfoque bayesiano es entender que:

Antes de observar datos, ya tenemos cierta información, intuición o conocimiento previo sobre \(\theta\), aunque sea vaga.

Esa incertidumbre previa se recoge mediante una distribución a priori \(\pi(\theta)\), que describe qué valores de \(\theta\) consideramos más o menos plausibles antes de ver los datos.

Después observamos una muestra y construimos la verosimilitud \(P(\text{datos} \mid \theta)\), que mide, para cada posible valor de \(\theta\), qué tan probable habría sido obtener los datos que hemos observado.

Finalmente, combinamos prior y verosimilitud mediante el Teorema de Bayes:

\[ \pi(\theta \mid \text{datos}) = \frac{P(\text{datos} \mid \theta)\,\pi(\theta)} {P(\text{datos})}, \]

es decir,

\[ \pi(\theta \mid \text{datos}) \propto P(\text{datos} \mid \theta)\,\pi(\theta). \]

La distribución resultante \(\pi(\theta \mid \text{datos})\) es la distribución posterior: resume todo lo que sabemos sobre \(\theta\) tras observar los datos y constituye la base para:

  • obtener estimaciones puntuales de \(\theta\) (por ejemplo, su media posterior),
  • construir intervalos de credibilidad,
  • tomar decisiones bajo incertidumbre.

En resumen, el proceso bayesiano de estimación sigue siempre tres pasos:

  1. Antes de ver los datos:
    fijamos una distribución a priori \(\pi(\theta)\) que representa nuestro conocimiento previo.
  2. Con los datos en la mano:
    definimos la verosimilitud \(P(\text{datos} \mid \theta)\).
  3. Después de ver los datos:
    usamos Bayes para obtener la posterior \(\pi(\theta \mid \text{datos})\).

A partir de aquí, trabajaremos siempre con este esquema.

3.1 Diferencias entre inferencia clásica y bayesiana

Como hemos venido indicando, en estadística conviven dos grandes enfoques para realizar inferencia sobre parámetros desconocidos: el frecuentista (o clásico) y el bayesiano. Ambos persiguen el mismo objetivo —extraer conclusiones sobre un parámetro a partir de los datos—, pero lo hacen con filosofías distintas:

  • interpretan de forma diferente la probabilidad,
  • tratan de manera distinta la incertidumbre,
  • y manejan de forma muy diferente la información previa.

En el contexto de estimación de parámetros, las diferencias esenciales pueden resumirse en la tabla siguiente:

Concepto Frecuentista Bayesiano
Parámetro \(\theta\) Número fijo (desconocido) Variable aleatoria con distribución a priori
Probabilidad Frecuencia en repeticiones hipotéticas del experimento Grado de creencia coherente
Origen de la incertidumbre Variabilidad muestral Incertidumbre modelada mediante distribuciones sobre \(\theta\)
Resultado de la inferencia Estimador \(\hat{\theta}\) e intervalos de confianza Distribución posterior \(\pi(\theta \mid \text{datos})\)
Información previa No se incorpora formalmente Se incorpora mediante el prior

La tabla deja ver que la diferencia no está solo en “qué fórmula se usa”, sino en cómo se concibe el problema:

  • En el enfoque frecuentista, la incertidumbre está en la muestra. El parámetro es un número fijo, y hablamos de la variabilidad de los estimadores si repitiésemos el experimento muchas veces.
  • En el enfoque bayesiano, la incertidumbre se traslada al propio parámetro, que se modela como variable aleatoria. La probabilidad describe nuestro grado de creencia sobre \(\theta\), y la actualización se hace explícita mediante el Teorema de Bayes.

Ambos enfoques son válidos y útiles, pero ofrecen respuestas distintas a preguntas como:

  • “¿Cuál es la probabilidad de que \(\theta\) esté en este intervalo?”
  • “¿Qué debemos creer sobre el valor de \(\theta\) tras ver estos datos?”

A continuación ilustraremos el enfoque bayesiano con un ejemplo sencillo pero muy representativo: el caso de una moneda que podría estar trucada.

3.2 Aplicación de la inferencia bayesiana: ¿está la moneda trucada?

Imaginemos que en la clase de estadística los alumnos deben exponer sus trabajos, y para decidir el orden de intervención se propone lanzar una moneda. Tras varios sorteos, algunos alumnos sospechan que la moneda podría estar trucada: parece que sale cara más a menudo de lo que cabría esperar.

Queremos estudiar si es razonable pensar que la moneda es “justa” (con probabilidad de cara cercana a 0.5) o si los datos sugieren que está sesgada.

Denotamos por \(\theta\) la probabilidad (desconocida) de obtener cara en un lanzamiento.

El análisis bayesiano seguirá los tres pasos habituales:

  1. Fijar un prior para \(\theta\).
  2. Especificar la verosimilitud a partir de los datos.
  3. Calcular la posterior y analizarla.

Paso 1: Establecer el prior \(\pi(\theta)\)

Antes de lanzar la moneda, ¿qué creemos sobre \(\theta\)?

  • Sabemos que \(\theta\) debe estar entre 0 y 1.
  • Pensamos que, en ausencia de evidencia, lo más razonable es que la moneda sea aproximadamente justa, es decir, que \(\theta\) esté cerca de 0.5.
  • Pero no estamos completamente seguros.

Para reflejar esta idea utilizamos un prior \(\text{Beta}(2,2)\):

\[ \theta \sim \text{Beta}(2,2). \]

Esta distribución es simétrica alrededor de 0.5 y no demasiado concentrada: favorece valores cercanos a 0.5, pero permite sin problema valores algo más extremos.

En forma de densidad (sin la constante de normalización), esto equivale a:

\[ \pi(\theta) \propto \theta^{1}(1-\theta)^{1}, \qquad 0 < \theta < 1. \]

Gráficamente, el prior tiene este aspecto:

Este prior puede interpretarse como si, antes de ver los datos, tuviésemos una experiencia equivalente a haber observado algo así como “1 cara y 1 cruz”: es una creencia moderada a favor de que la moneda sea razonablemente equilibrada.

Paso 2: Observar datos y construir la verosimilitud

Lanzamos ahora la moneda \(n = 10\) veces y observamos \(k = 7\) caras y \(3\) cruces.

Condicionado a \(\theta\), el número de caras en 10 lanzamientos sigue un modelo Binomial:

\[ K \mid \theta \sim \text{Binomial}(n = 10,\ \theta). \]

La verosimilitud de \(\theta\) dados los datos observados es, salvo constantes:

\[ P(K = 7 \mid \theta) \propto \theta^{7}(1-\theta)^3. \]

Esta función nos dice, para cada posible valor de \(\theta\), qué tan bien explica los datos “7 caras en 10 lanzamientos”.

Representamos la verosimilitud (reescalada para visualizarla mejor):

Como se puede apreciar, la verosimilitud es máxima cuando el estimador \(\theta=0.7=7/10\). Por tanto, el estimador Máximo verosimil de \(\theta\) es 0.7. \(\hat{\theta}_{MV}=0.7\).

Una vez tenemos el prior y la verosimilitud, podemos calcular el Posterior.

Paso 3: Calcular la posterior

Aplicamos ahora el Teorema de Bayes:

\[ \pi(\theta \mid \text{datos}) \propto P(\text{datos} \mid \theta)\,\pi(\theta). \] o lo que es lo mismo \[ \text{Posterior} \;\propto\; \text{Verosimilitud} \times \text{Prior} \] En nuestro caso:

\[ \pi(\theta \mid 7\ \text{caras}) \propto \theta^{7}(1-\theta)^3 \;\theta^{1}(1-\theta)^1. \]

Por tanto:

\[ \pi(\theta \mid \text{datos}) \propto \theta^{8}(1-\theta)^4. \]

Esta es exactamente la forma de una distribución Beta, por lo que:

\[ \theta \mid \text{datos} \sim \text{Beta}(9,5). \]

Representamos ahora prior, verosimilitud (reescalada) y posterior:

¿Qué ha pasado?

  1. Prior (azul): Creía que \(\theta\) estaba cerca de 0.5

  2. Datos (verde): Vi 7/10 caras → evidencia de que \(\theta > 0.5\)

  3. Posterior (*rojo**): Mi creencia se “movió” hacia 0.6–0.7

  4. La incertidumbre (ancho de la curva) disminuyó

El posterior es un compromiso entre el prior y los datos

Interpretación como “datos virtuales”

Aunque todavía no hemos hablado de las distribuciones conjugadas, podemos interpretar o calcular que son las funciones.

En el modelo Beta–Binomial, la distribución \(\text{Beta}(\alpha,\beta)\) puede interpretarse como si aportara:

  • \(\alpha - 1\) éxitos “virtuales”,
  • \(\beta - 1\) fracasos “virtuales”.

En nuestro caso:

  • Prior: \(\text{Beta}(2,2)\) → 1 éxito virtual y 1 fracaso virtual.
  • Datos reales: 7 éxitos y 3 fracasos.

Por tanto, la posterior es:

\[ \theta \mid \text{datos} \sim \text{Beta}(2+7,\ 2+3) = \text{Beta}(9,5). \]

En general:

\[ \text{Beta}(\alpha,\beta) \quad+\quad k \text{ éxitos},\ n-k \text{ fracasos} \quad\Rightarrow\quad \text{Beta}(\alpha+k,\ \beta+n-k). \] Realmente solo sumamos los valores.

Efecto del tamaño muestral o regla de la actualización

Para ver cómo cambia la incertidumbre cuando aumenta la cantidad de datos, comparamos tres situaciones con el mismo prior \(\text{Beta}(2,2)\):

  • \(n = 10,\ k = 7\)
  • \(n = 50,\ k = 35\)
  • \(n = 200,\ k = 140\)

Las tres comparten la misma proporción muestral \(\hat{p} = 0.7\), pero aportan cantidades de información distintas. A continuación representamos las tres posteriors:

Lo que observamos es lo siguiente:

  1. Con pocos datos, el prior importa más y la posterior es mas ancha
    • Tu creencia inicial tiene peso
    • Diferentes priors pueden dar diferentes conclusiones
    • Hay mucha incertidumbre
  2. Con más datos, el posterior se estrecha
    • Menos incertidumbre
    • Más “seguridad” sobre el valor de \(\theta\)
    • Se gana precisión.
  3. Con muchos datos, el prior apenas influye
    • Los datos o evidencia domina
    • El posterior converge al mismo lugar sin importar el prior.

Esto explica por qué, con muestras grandes, los métodos bayesianos y frecuentistas suelen dar resultados muy similares.

4. Intervalos de Credibilidad

En el enfoque bayesiano, una vez obtenemos la distribución posterior \(\pi(\theta \mid \text{datos})\), disponemos de una descripción completa de la incertidumbre sobre el parámetro. A partir de esta distribución, podemos obtener un intervalo de credibilidad, que es la versión bayesiana del intervalo de confianza.

Un intervalo de credibilidad del 95 % es un intervalo \([L, U]\) tal que:

\[ P(L \le \theta \le U \mid \text{datos}) = 0.95. \]

Su interpretación es directa:

Dada la información previa y los datos observados, hay un 95 % de probabilidad de que \(\theta\) esté dentro del intervalo.

Esta afirmación es válida porque, en el enfoque bayesiano, \(\theta\) se trata como variable aleatoria, y la probabilidad refleja nuestro grado de creencia sobre su valor.

4.1 Comparación con el intervalo de confianza clásico

En el enfoque frecuentista, un intervalo de confianza del 95 % no significa que haya un 95 % de probabilidad de que \(\theta\) esté en ese intervalo. La interpretación correcta es:

Si repitiésemos el experimento infinitas veces, el 95 % de los intervalos construidos mediante ese procedimiento contendrían al verdadero \(\theta\).

Es decir:

  • El parámetro es fijo.
  • El intervalo es aleatorio.
  • La probabilidad se refiere al procedimiento, no al parámetro.
  • No podemos decir que “hay un 95 % de probabilidad de que \(\theta\) esté en el intervalo”, porque en el enfoque frecuentista \(\theta\) no tiene distribución.

Este contraste es importante porque explica por qué muchos usuarios interpretan erróneamente los intervalos de confianza como si fueran intervalos de credibilidad bayesianos.

4.2 Ejemplo: Intervalo de credibilidad para la moneda

En el ejemplo anterior obtuvimos la posterior:

\[ \theta \mid \text{datos} \sim \text{Beta}(9,5). \]

Para construir un intervalo de credibilidad del 95 %, basta con calcular los cuantiles 2.5 % y 97.5 % de esta distribución Beta.

El intervalo resultante es aproximadamente: \([\, L , U \,] = [0.44, 0.86]\)

Interpretación bayesiana:

Dada nuestra información previa y los datos observados, hay un 95 % de probabilidad de que \(\theta\) esté entre 0.44 y 0.86.

Es un resumen claro, natural e intuitivo de la incertidumbre sobre \(\theta\).

4.3. ¿Por qué es útil el intervalo de credibilidad?

El intervalo de credibilidad:

  • resume la incertidumbre de forma probabilística,

  • responde directamente a las preguntas que los usuarios suelen plantear (“¿con qué probabilidad está \(\theta\) en este rango?”),

  • es coherente con la interpretación de la probabilidad como grado de creencia,

  • y evita los malentendidos habituales asociados a los intervalos de confianza clásicos.

Por estas razones, los intervalos de credibilidad son una herramienta muy valiosa en análisis económico, empresarial y científico.

A modo de resumen:

  • El intervalo de credibilidad del 95 % permite afirmar:
    Hay 95 % de probabilidad de que \(\theta\) esté entre \(L\) y \(U\).”

  • El intervalo de confianza del 95 % no permite esa afirmación:
    solo dice que el método produce intervalos correctos el 95 % de las veces.

5. Ejemplo práctico de Inferencia Bayesiana: Shakira y el frasco de mermelada

Simil sacado de Cómo predecir el futuro y reducir la incertidumbre gracias a la Inferencia Bayesiana (I)

Hasta ahora hemos visto cómo la inferencia bayesiana permite combinar información previa y datos para actualizar nuestras creencias de forma coherente. También hemos comparado este enfoque con la estadística clásica y hemos visto cómo construir intervalos de credibilidad que expresan directamente la incertidumbre sobre un parámetro.

Para ilustrar cómo estos conceptos se aplican en un caso cotidiano —aunque algo más divertido— presentamos un ejemplo narrativo que se ha hecho popular por su claridad. El objetivo no es analizar un modelo matemático complejo, sino mostrar cómo el razonamiento bayesiano aparece de manera natural cuando una persona intenta interpretar nueva evidencia a la luz de sus creencias previas.

A continuación veremos cómo Shakira, enfrentada a un indicio aparentemente trivial —un frasco de mermelada consumido— puede utilizar el Teorema de Bayes para actualizar la probabilidad de una hipótesis concreta: que su (ex-)pareja, Piqué, le esté siendo infiel. Aunque el contexto es humorístico, la estructura del razonamiento es idéntica a la que seguimos en cualquier problema bayesiano: prior, verosimilitud y posterior.

Imaginaros a Shakira regresando de un concierto fuera de España a su casa antes de la separación de Piqué. Resulta, que quiere desayunar, va a su nevera y de repente, ¿qué descubre? ¡La mermelada que sólo ella consume en su casa se ha vaciado de una manera relevante!. Y como Shakira es muy lista y sabe Inferencia Bayesiana, se pregunta: ¿cuál es la probabilidad de que Piqué me esté engañando? y aquí viene el Detective Bayes. ¡Teorema de Bayes al rescate!

El concepto tras el teorema de Bayes es sorprendentemente simple:

Cuando actualizas tu creencia inicial con nueva información, obtienes una nueva creencia mejorada.

Se puede expresar este concepto, casi filosófico, con matemáticas muy sencillas de la siguiente manera:

Creencia nueva y mejorada = Creencias iniciales x Nuevos datos objetivos

La inferencia bayesiana te recuerda que la nueva evidencia te obligará a revisar tus viejas creencias. Los matemáticos no tardaron en asignar términos a cada elemento de este método de razonamiento:

  • A priori es la probabilidad de la creencia inicial.

  • La verosimilitud es la probabilidad de la nueva hipótesis basada en datos objetivos recientes.

  • A posteriori es la probabilidad de una nueva creencia revisada.

Por supuesto, si aplicas varias veces seguidas la inferencia (si te ocurre muy a menudo que el consumo de mermelada baje sin que a nadie en tu casa le guste), la nueva probabilidad a priori (la probabilidad de que tu pareja te sea infiel) tomará el valor de la vieja probabilidad a posteriori.

Analicemos, armados con esta fórmula la presunta infidelidad de Piqué.

Cómo aplicar la inferencia bayesiana para descubrir si Piqué es infiel

¿Piqué está siendo infiel? La evidencia es que Shakira ha encontrado que su mermelada se la están comiendo (Menos Mermelada=\(MM\)); la hipótesis que le interesa evaluar a Shakira es la probabilidad de que Piqué la (\(E\)). El teorema de Bayes podrá aclarar a Shakira esa sospecha, siempre y cuando sepa (o esté dispuesta a estimar) tres cantidades:

  1. ¿Cuál es la probabilidad de que si Pique engaña a Shakira, cada vez haya menos mermelada en el bote? \(P(MM|E)\)? Si la está engañando, es bastante fácil imaginar cómo se ha reducido esa mermelada al no gustarle a nadie en la casa. Por otra parte, incluso (y quizás especialmente) si Piqué la está engañando, se puede esperar que Piqué sea más cuidadoso. Supongamos que la probabilidad de que la mermelada esté reduciendose si Piqué está engañando a Shakira es del 50%, \(P(MM|E) = 0.50\).

  2. ¿Cuál es la probabilidad de que se coman la mermelada si Piqué no la engaña, \(P(MM|\bar{E})\)? Podría ser que en secreto se come la mermelada cuando Shakira no está, porque realmente sí le gusta y no quiere que lo sepa. Podría ser que algún amigo o amiga que venga a casa la tome. Podría ser que la asistenta o incluso alguno de sus hijos la tome a escondidas en su ausencia. Ninguna de estas teorías imposible, aunque podría ser simplemente la típica excusa como la del perro que se comió tus deberes. De este modo puedes asignar a esos sucesos una probabilidad pequeña al ser algo inversoimil, por ejemplo del 5% (\(P(MM|\bar{E})=0.05\).

  3. Por último y más importante, Shakira necesita conocer la probabilidad a priori. ¿Cuánto creía Shakira en la infidelidad de Piqué antes de encontrar que se están comiendo su mermelada, \(P(E)\)? Por supuesto, ahora que ha descubierto que se están comiendo su mermelada resultará difícil ser completamente objetiva. Idealmente, Shakira establecerá su probabilidad a priori antes de comenzar a examinar la evidencia. Afortunadamente, a veces es posible estimar este dato empíricamente a través de estudios previos, por ejemplo si conoce cual es la probabilidad de que un hombre sea infiel a su pareja. A pesar de ello, vamos suponer que Shakira confiaba bastante en Piqué y establece esa probabilidad en un 4% (\(P(E)=0.04)\), por lo que la probabilidad de que Piqué no la engañara era del 96% (\(P(\bar{E})=1-P(E)\)).

Calculemos la Pobabilidad de que Piqué le fuera Infiel a Shakira según las “creencias” iniciales de ella

Asumiendo un buen trabajo en la estimación de todos los valores anteriores, ya solo falta aplicar el teorema de Bayes para establecer la probabilidad a posteriori. Para facilitar los cálculos, asumamos un grupo de 1.000 parejas, ilustrado como el rectángulo grande rosa en la siguiente imagen (no está a escala). Es fácil ver que, si 40 de cada 1.000 individuos engañan a su pareja, y si de éstos, la mitad se olvidan de reponer la mermelada consumida, 20 personas habrán comido mermelada (el grupo 4). Por otro lado, de las 960 de cada 1.000 personas que no engañan a su pareja, el 5% habrán consumido por error mermelada, o lo que es lo mismo, 48 personas (el grupo 2). Sumando ambas cantidades resulta que habrán consumido 68 veces mermelada de manera extraña en las neveras de las parejas (grupo 2 + grupo 4).

Por lo tanto, si Shakira encuentra que se han comido su mermelada en su ausencia, ¿cuál es la probabilidad de que Piqué engañe a Shakira?. Será la proporción entre las veces que se hayan comido la mermelada cuando las parejas son infieles (4) divididas entre las veces totales que se han comido mermelada encontradas, tanto de parejas que engañan como que no (2 + 4). Sin necesidad de hacer ningún cálculo, salta a la vista que se hayan comido mermelada en tu ausencia será más probable debido a una pareja fiel que a una infiel. De hecho, el valor exacto de la probabilidad a posteriori es: \(P(E|MM) = 20/68 = 29,4\%\).

Podemos resumir la información anterior en la famosa ecuación de Bayes:

\[ P(\text{Hipótesis=Piqué sea Infiel}/\text{Datos=Coman mermelada})= \frac{P(\text{Piqué sea infiel})·P(\text{se coman la mermelada}/{\text{Piqué sea infiel}})}{P(\text{Se coman la mermelada (te engañe o no))}} \]

\[ P(E/MM)=\frac{\text{Probabilidad de coman mermelada si Piqué engaña a Shakira}}{\text{Probabilidad de que se coman la mermelada (te engañe o no)}}= \frac{P(E)·P(MM/E)}{P(E)·P(MM/E)+P(\bar{E})·P(MM/\bar{E})} \]

Sustituyendo los valores numéricos correspondientes, llegamos una de nuevo a la probabilidad de que Piqué engañe a Shakira es del 29,4%.

\[ P(E/MM)= \frac{P(E)·P(MM/E)}{P(E)·P(MM/E)+P(\bar{E})·P(MM/\bar{E})}= \frac{0.04·0.5}{0.04·0.5+0.96·0.05}=0.294 (29.4\%) \]

¿Cómo Shakira obtiene este resultado tan sorprendentemente bajo? Pues porque Shakira creía profundamente en la fidelidad de Piqué, y parte de probabilidad a priori muy baja (tasa base) de infidelidad (sólo un 4%). Aunque las explicaciones de cómo la mermelada ha ido desapareciendo de la nevera son más bien inverosímiles, ella parte de la premisa de que Piqué era fiel, lo que tiene mucha relevancia en la ecuación de Bayes, y por tanto en los resultados alcanzados. Lo cual resulta algo contraintuitivo, pues ¿no es algo extraño que desaparezca la mermelada que nadie se come excepto Shakira de la nevera como prueba de la culpabilidad de Piqué?

El problema es que en este ejemplo, prestamos una atención desmedida a la evidencia (¡alguien se come la mermelada!) y olvidamos la tasa base (sólo el 4% engaña). Cuando nos dejamos deslumbrar por los nuevos datos objetivos a costa del conocimiento previo, nuestras decisiones serán consistentemente subóptimas.

En este punto Shakira podría haber hecho dos cosas:

  1. No decir nada a Piqué sobre lo que había observado y ver que pasaba en el futuro, o
  2. Avisar a Piqué de lo que estaba ocurriendo y seguir obervando lo que pasa en el futuro.

Vamos a ver que pasa si nos situamos en el primer caso y Shakira percibe que se están comiendo la mermelada pero no advierte a Piqué, para comprobar que ocurre en el futuro con la mermelada.¿Qué pasa si a las pocas semanas vuelve a aparecer el bote de la mermelada más vacío? ¿Cómo cambiará ahora su creencia en la inocencia de Piqué? A medida que va apareciendo nueva evidencia, Shakira actualizará su estimación inicial de la probabilidad. La probabilidad a posteriori de que Piqué engañara a Shakira la primera vez y que calculó fue de un 29,4%, ahora pasará a ser la probabilidad a priori de que la esté engañando por segunda vez. en este caso, Shakira adapta su evaluación de los eventos probabilísticos futuros a la luz de la nueva evidencia. Si reintroduce en la fórmula anterior las nueva evidencia, \(P(E) = 0.294\) la nueva probabilidad a posteriori de que Piqué haya sido infiel a Shakira es del 80.6%. En este punto a Shakira se le encienden todas las alarmas, y va directa al abogado para pedir los papeles del divorcio!

Si nos ponemos en el segundo caso, donde Shakira concede a Piqué el beneficio de la duda, pero le advierte de que en el futuro no se le ocurra a nadie que no sea ella comerse la mermelada (ya sea Piqué, la asistenta, sus hijos o algún invitado extraño), la probabilidad de que en el futuro vuelva a aparecer el bote algo vacío si no te engaña será como mucho del 1%, o sea, \(P(MM|\bar{E}) = 0.01\). En este caso, y de nuevo tomando como probabilidad a priori la obtenida antes del aviso (29.4%), la nueva probabilidad a posteriori pasa a ser del 95.4%. Si había alguna duda del divorcio, ahora está claro. Además, con el despecho de obtener una probabilidad tan alta tras este aviso, la venganza a través de sus nuevas canciones será sonada.

¿Qué nos enseña realmente este caso?

El ejemplo de Shakira y el frasco de mermelada es deliberadamente sencillo, pero captura de forma clara la lógica de la inferencia bayesiana. Después de fijar:

  • una probabilidad previa de infidelidad,
  • las probabilidades de observar la evidencia bajo ambas hipótesis (infidelidad o no infidelidad),

Shakira obtiene, mediante el Teorema de Bayes, la probabilidad posterior de que Piqué le sea infiel al observar el bote de mermelada vacío.

El resultado inicial es revelador: aunque la mermelada parece un indicio fuerte, la probabilidad posterior de infidelidad es solo del 29.4%, un valor mucho más bajo de lo que la intuición sugeriría.
La razón es que Shakira parte de un prior muy bajo, \(P(E)=0.04\). La evidencia, aunque relevante, no basta para sobrepasar por completo ese conocimiento previo.

En otras palabras:

Los datos no se interpretan solos: siempre se interpretan en el contexto de lo que ya sabemos o creemos.

¿Qué ocurre cuando aparece nueva evidencia?

La inferencia bayesiana permite actualizar creencias de forma secuencial.
La probabilidad posterior obtenida en la primera actualización pasa a ser la nueva probabilidad previa:

  • Si Shakira vuelve a observar el bote vacío,
  • la nueva evidencia se evalúa sobre un prior más alto (29.4%),
  • lo que conduce a una probabilidad posterior del 80.6%.

Si además Shakira advierte a Piqué de que no quiere que nadie toque su mermelada y aun así encuentra de nuevo el bote vacío, la probabilidad de infidelidad asciende hasta el 95.4%.

Este comportamiento refleja perfectamente la lógica bayesiana:

  • la evidencia se acumula,
  • el prior se va ajustando,
  • y la hipótesis más consistente con los datos gana credibilidad.

Enseñanzas clave del ejemplo

  1. La evidencia no se interpreta de forma aislada.
    Importa su compatibilidad relativa con cada hipótesis.

  2. El prior importa (y mucho).
    Ignorar la tasa base, como hace la intuición humana, conduce a conclusiones erróneas.

  3. La probabilidad bayesiana evoluciona con la información.
    Cada nueva observación ajusta la creencia previa coherentemente.

  4. La fórmula de Bayes permite actualizaciones sucesivas sin inconsistencias.

Este ejemplo resume en un contexto cotidiano las ideas desarrolladas en este capítulo:

  • Probabilidad subjetiva: una creencia inicial razonada.
  • Probabilidad condicional: cómo se comporta la evidencia bajo cada hipótesis.
  • Teorema de Bayes: combinación racional de prior y verosimilitud.
  • Actualización secuencial: la posterior se convierte en el nuevo prior.

El proceso seguido por Shakira es exactamente el que aplicaremos, de manera más formal, cuando estudiemos las distribuciones conjugadas, aunque lo hemos visto ya en la estimaci´´on bayesiana de parámetros.

6. Distribuciones conjugadas.

La inferencia bayesiana es conceptualmente simple: siempre hay que calcular la posterior a partir de la verosimilitud (modelo de datos) y de la distribución inicial o prior. Sin embargo, una crítica usual que se hace de la inferencia bayesiana es precisamente que hay que tener esa información inicial, y que distintos analistas llegan a distintos resultados si tienen información inicial distinta.

Eso realmente no es un defecto, es una ventaja de la inferencia bayesiana. Los datos y los problemas que queremos resolver no viven en un vacío donde podemos creer que la estatura de las personas, por ejemplo, puede variar de 0 a mil kilómetros, el número de boletos de una lotería puede ir de 2 o 3 boletos o también quizá 500 millones de boletos, o la proporción de personas infectadas de una enfermedad puede ser de unos cuantos hasta miles de millones.

En todos estos casos tenemos cierta información inicial que podemos usar para informar nuestras estimaciones. Esta información debe usarse. Antes de tener datos, las probabilidades iniciales deben ser examinadas en términos del conocimiento de expertos. Las probabilidades iniciales son supuestos que hacemos acerca del problema de interés, y también están sujetas a críticas y confrontación con datos.

6.1. ¿Qué es el análisis conjugado?

En inferencia bayesiana, como ya sabemos, el proceso básico consiste en combinar la información previa sobre un parámetro (prior) con la información contenida en los datos (verosimilitud) para obtener la distribución posterior. Sin embargo, este cálculo puede ser complicado si la forma del prior y la verosimilitud no encajan bien. Para facilitar este proceso, se utiliza la idea de familias conjugadas.

Decimos que un prior es conjugado para un modelo cuando la distribución posterior pertenece a la misma familia que la distribución previa. Esto significa que, después de aplicar el Teorema de Bayes, la forma funcional del prior se mantiene en la posterior; únicamente cambian sus parámetros. Esta propiedad simplifica enormemente los cálculos y permite obtener expresiones cerradas para la distribución posterior sin necesidad de métodos numéricos.

El análisis conjugado permite ver con claridad cómo la información previa y la información que aportan los datos se combinan de manera natural. En estos casos, el prior actúa como si aportara una cierta cantidad de “datos virtuales”, y la posterior surge como una actualización que añade a esa información previa las observaciones reales obtenidas en el experimento. Esto hace que el enfoque conjugado sea especialmente útil para la enseñanza, para la interpretación intuitiva de la inferencia bayesiana y para problemas en los que se requieren actualizaciones rápidas o repetidas.

Por tanto,el análisis conjugado muestra una de las ventajas más importantes del enfoque bayesiano: cuando se eligen priors adecuados para el modelo, la actualización de creencias puede realizarse de forma exacta, algebraicamente simple y con una interpretación directa del efecto de los datos y del conocimiento previo.

6.2. Modelo Bernoulli-Beta

Supongamos que queremos estimar la probabilidad de éxito \(\theta\) en un experimento Bernoulli. Observamos \(n\) ensayos y \(k\) éxitos (recuerda que \(k=\sum x_i\)).

La verosimilitud es:

\[ P(\mathbf{x} \mid \theta) \propto \theta^{k}(1-\theta)^{n-k}. \]

Elegimos una distribución \(Beta\) como un prior conjugado:

\[ \theta \sim \text{Beta}(\alpha,\beta). \] donde la función \(beta\) es:

\[ \text{Beta}(\alpha,\beta) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\, \theta^{\alpha-1}(1-\theta)^{\beta-1}, \qquad 0 < \theta < 1. \] La disribución posterior resulta de multiplicar el prior y la verosimilitud:

\[ \pi(\theta \mid \mathbf{x}) \propto \theta^{\alpha - 1 + k} (1-\theta)^{\beta - 1 + (n - k)}. \]

Nótese que se puede omitir cualquier término (constante) que no dependa de \(\theta\), ya que no afecta a la forma del posterior. La normalización de la función se realiza al final del proceso.

Por lo tanto:

\[ \theta \mid \mathbf{x} \sim \text{Beta}(\alpha + k,\ \beta + n - k). \] Como resultado, el prior Beta\((\alpha,\beta)\) equivale a haber visto previamente \(\alpha - 1\) éxitos y \(\beta - 1\) fracasos.

Ejemplo binomial-beta

Veamos un ejemplo de la conjugación Binomial–Beta en el caso de una moneda.

Queremos estudiar la probabilidad de que una determinada moneda salga cara al lanzarla. No sabemos si la moneda es equilibrada o está sesgada, por lo que denotamos por \(\theta\) la probabilidad (desconocida) de obtener cara en un lanzamiento.

Antes de observar datos, asumimos que, aunque no tenemos una información muy precisa, sí creemos razonable pensar que la moneda podría estar aproximadamente equilibrada. Para recoger esta idea, modelizamos nuestra incertidumbre inicial sobre \(\theta\) mediante
una distribución a priori Beta con parámetros \(\alpha = 2\) y \(\beta = 2\), es decir:

\[ \theta \sim \text{Beta}(2,2). \] Esta elección de prior es simétrica en torno a \(0.5\) y no es excesivamente informativa: favorece valores cercanos a \(0.5\), pero permite con cierta probabilidad valores más extremos.

A continuación realizamos un experimento (verosimilitud): lanzamos la moneda \(n = 20\) veces de forma independiente y observamos \(k = 13\) caras. Supondremos que, condicionado a \(\theta\), el número de caras sigue una distribución Binomial:

\[ K \mid \theta \sim \text{Binomial}(n = 20,\ \theta). \] Nuestro objetivo es obtener la distribución a posteriori de \(\theta\) tras observar los datos,es decir, la distribución \(\pi(\theta \mid \text{datos})\) que combina la información previa (a priori) con la información aportada por la muestra. En este caso, al utilizar un prior Beta con un modelo Binomial, sabemos que la a posteriori será también una distribución Beta (conjugación Binomial–Beta).

En el apartado numérico que sigue, calcularemos los parámetros de la distribución posterior y representaremos gráficamente el prior y el posterior para visualizar cómo cambian nuestras creencias sobre \(\theta\) después de observar los 20 lanzamientos.

Este ejemplo asume:

  • Una moneda con probabilidad desconocida de cara \(\theta\).
  • Observamos \(n=20\) lanzamientos y \(k=13\) caras.
  • Usamos un prior \(Beta(2, 2)\) (no muy informativo, centrado en 0.5).
Code
# Parámetros del prior
alpha <- 2
beta  <- 2

# Datos observados
n <- 20
k <- 13

# Posterior
alpha_post <- alpha + k
beta_post  <- beta  + (n - k)

alpha_post; beta_post
[1] 15
[1] 9

Dibujamos el prior y la verosimilitud

Code
library(ggplot2)

# Secuencia de valores de theta
theta <- seq(0, 1, length.out = 1000)

# Verosimilitud (es proporcional, así que la normalizamos para dibujar)
lik_raw <- theta^k * (1 - theta)^(n - k)
lik <- lik_raw / max(lik_raw)  # normalizar para escalarla junto a prior y posterior

# Crear el data frame
df <- data.frame(
  theta = theta,
  prior = dbeta(theta, alpha, beta),
  likelihood = lik,
  posterior = dbeta(theta, alpha_post, beta_post)
)

# Dibujar
ggplot(df, aes(x = theta)) +
  geom_line(aes(y = prior, colour = "Prior Beta(2,2)"), linewidth = 1) +
  geom_line(aes(y = likelihood, colour = "Verosimilitud (escalada)"), linewidth = 1) +
  geom_line(aes(y = posterior, colour = "Posterior Beta(15,9)"), linewidth = 1) +
  scale_colour_manual(values = c("blue", "orange", "red")) +
  labs(title = "Prior, Verosimilitud y Posterior en el modelo Binomial–Beta",
       x = expression(theta),
       y = "Densidad / Escala relativa",
       colour = "Distribución") +
  theme_minimal()

Code
cat("Prior: Beta(", alpha, ",", beta, ")\n")
Prior: Beta( 2 , 2 )
Code
cat("Datos: k =", k, "caras de n =", n, "\n")
Datos: k = 13 caras de n = 20 
Code
cat("Posterior: Beta(", alpha_post, ",", beta_post, ")\n")
Posterior: Beta( 15 , 9 )
Code
cat("Media posterior:", alpha_post / (alpha_post + beta_post), "\n")
Media posterior: 0.625 

Podemos observar diferentes resultados betas.

Code
knitr::include_app("https://tereom.shinyapps.io/app_bernoulli/", 
    height = "1000px")

6.3. Modelo Poisson–Gamma

Cuando trabajamos con datos que representan conteos —por ejemplo, el número de clientes que llegan a una tienda por hora, el número de accidentes diarios en un cruce o el número de correos que llegan por minuto— un modelo habitual es suponer que estas observaciones siguen una distribución Poisson con una tasa desconocida \(\lambda\). En el enfoque bayesiano, esta tasa \(\lambda\) es tratada como un parámetro aleatorio sobre el que tenemos incertidumbre, y por tanto necesitamos especificar un prior que represente nuestro conocimiento (o falta de él) antes de observar datos.

La elección del prior no es arbitraria. Nos interesa que, alvcombinarlo con la verosimilitud mediante el Teorema de Bayes, podamos obtener una expresión posterior que sea fácil de interpretar y de trabajar. En este sentido, aparece el concepto de distribución conjugada: un prior que, al actualizarse con un determinado modelo de verosimilitud, produce una posterior de la misma familia. Esto permite realizar la actualización de forma analítica y entender de forma intuitiva cómo se combinan la información previa y los datos.

En el caso de un modelo Poisson para los datos, la distribución conjugada para \(\lambda\) es la distribución \(Gamma\). Esto significa que, si antes de ver datos suponemos que \(\lambda\) sigue una distribución \(Gamma\) con ciertos parámetros, entonces, después de observar los conteos, la distribución posterior de \(\lambda\) seguirá siendo también una \(Gamma\), aunque con parámetros actualizados. Esta propiedad hace que el análisis sea especialmente transparente: podemos ver explícitamente cómo los datos “actualizan” nuestros parámetros previos y cómo la forma de la distribución se mantiene, lo cual facilita tanto la interpretación como el cálculo.

Por tanto, queremos estimar una tasa \(\lambda\) cuando las observaciones siguen:

\[ X_i \sim \text{Poisson}(\lambda). \]

Sea \(S = \sum_{i=1}^n X_i\). La verosimilitud (sin tener encuenta la parte constante) es:

\[ P(\mathbf{x} \mid \lambda) \propto \lambda^{S} e^{-n\lambda}. \]

El prior conjugado es:

\[ \lambda \sim \text{Gamma}(\alpha,\beta). \] donde la densidad de la función \(Gamma\) es:

\[ Gamma(\alpha, \beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}\, \lambda^{\alpha - 1}\, e^{-\beta \lambda}, \qquad \lambda > 0. \]

La posterior se obtiene combinando prior (sin conste) y datos (sin constante):

\[ \pi(\lambda \mid \mathbf{x}) \propto \lambda^{\alpha - 1 + S} e^{-(\beta + n)\lambda}. \]

Por tanto:

\[ \lambda \mid \mathbf{x} \sim \text{Gamma}(\alpha + S,\ \beta + n). \]

De este modo, el prior Gamma\((\alpha,\beta)\) equivale a una información previa que aporta
\(\alpha - 1\) eventos y un tiempo previo equivalente a \(\beta\) unidades.

Ejemplo Poisson-Gamma

Supongamos que queremos estimar la tasa \(\lambda\) de ocurrencia de un cierto evento, por ejemplo, el número de clientes que llegan a una tienda por hora. Pensamos que, condicionado al valor de \(\lambda\), el número de clientes por hora sigue un modelo Poisson.Antes de observar datos, representamos nuestra incertidumbre sobre \(\lambda\) con un prior Gamma con parámetros \(\alpha=3\) y \(\beta=2\). Este prior favorece valores moderados de \(\lambda\), pero con bastante incertidumbre.

Observamos ahora durante \(n=10\) horas el número de clientes que llegan cada hora. Los conteos observados son:

\(x=(3,4,2,5,3,4,6,1,3,4)\)

La suma de estos conteos es:

\(S = \sum_{i=1}^{10} x_i= 35\)

Queremos obtener la distribución posterior de \(\lambda\) y comparar gráficamente el prior, la verosimilitud y la posterior.

Code
# Datos observados
x <- c(3,4,2,5,3,4,6,1,3,4)
n <- length(x)
S <- sum(x)

# Prior Gamma(alpha, beta)
alpha <- 3
beta  <- 2

# Posterior
alpha_post <- alpha + S
beta_post  <- beta + n
alpha_post; beta_post
[1] 38
[1] 12

La verosimilitud para Poisson depende de \(\lambda\) solo a través de:

\(L(\lambda) \propto \lambda^{S} e^{-n\lambda}\)

Para visualizarla junto con prior y posterior la escalamos.

Code
library(ggplot2)

lambda <- seq(0, 10, length.out = 1000)

# Prior
prior <- dgamma(lambda, alpha, beta)

# Verosimilitud (escalada para visualizarla)
lik_raw <- lambda^S * exp(-n * lambda)
lik <- lik_raw / max(lik_raw)

# Posterior
posterior <- dgamma(lambda, alpha_post, beta_post)

df <- data.frame(
  lambda = lambda,
  prior = prior,
  likelihood = lik,
  posterior = posterior
)

ggplot(df, aes(x = lambda)) +
  geom_line(aes(y = prior, colour = "Prior Gamma(3,2)"), linewidth = 1) +
  geom_line(aes(y = likelihood, colour = "Verosimilitud (escalada)"), linewidth = 1) +
  geom_line(aes(y = posterior, colour = "Posterior"), linewidth = 1) +
  scale_colour_manual(values = c("blue", "orange", "red")) +
  labs(title = "Conjugación Poisson–Gamma",
       x = expression(lambda),
       y = "Densidad / Escala relativa",
       colour = "Distribución") +
  theme_minimal()

¿Cómo interpretamos esto?

En este ejemplo, hemos observado un total de \(S = 35\) eventos a lo largo de \(n = 10\) intervalos de tiempo.
Esto sugiere una tasa empírica aproximada de:

\[ \frac{S}{n} = \frac{35}{10} = 3.5. \]

El prior \(\text{Gamma}(\alpha = 3,\ \beta = 2)\) refleja una creencia inicial moderada que favorece valores de \(\lambda\) en torno a

\[ \mathbb{E}[\lambda] = \frac{\alpha}{\beta} = \frac{3}{2} = 1.5. \]

Tras observar los datos, la distribución a posteriori es:

\[ \lambda \mid x \sim \text{Gamma}(38,\ 12), \]

lo que combina la información previa con la aportada por los datos.
Su media posterior es:

\[ \mathbb{E}[\lambda \mid x] = \frac{38}{12} \approx 3.17. \]

Esta media se sitúa entre la media del prior (\(1.5\)) y la tasa observada (\(3.5\)), mostrando cómo el enfoque bayesiano suaviza la estimación: los datos empujan la tasa hacia arriba, pero la información previa evita saltos extremos. Por tanto, la posterior refleja una incertidumbre reducida gracias a los datos observados, manteniendo al mismo tiempo la influencia del conocimiento previo.

6.4. Modelo Normal–Normal (con varianza conocida)

Supongamos que queremos estimar la media desconocida \(\mu\) de una población en la que suponemos que cada observación sigue una distribución normal con varianza conocida \(\sigma^2\).

Observamos una muestra \(x_1, x_2, \dots, x_n\) y asumimos que:

\[ X_i \mid \mu \sim \mathcal{N}(\mu, \sigma^2). \]

Antes de ver los datos, expresamos nuestra incertidumbre sobre \(\mu\) mediante un prior normal:

\[ \mu \sim \mathcal{N}(\mu_0, \tau_0^2). \]

Esta elección es conveniente porque la familia Normal es conjugada para la media de una Normal con varianza conocida. Esto significa que la posterior tendrá también forma normal,facilitando los cálculos y la interpretación.

La verosimilitud depende de la media muestral \(\bar{x}\):

\[ L(\mu)=P(\mathbf{x} \mid \mu)= \propto \exp\!\left( - \frac{n}{2\sigma^2} (\mu - \bar{x})^2 \right). \] El Prior normal como hemos dicho es:

\[ \mu \sim \mathcal{N}(\mu_0, \tau_0^2). \]

Al combinar prior y verosimilitud, obtenemos:

\[ \mu \mid x \sim \mathcal{N}(\mu_n, \tau_n^2), \]

donde:

\[ \tau_n^2 = \left( \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \right)^{-1}, \]

\[ \mu_n = \tau_n^2 \left( \frac{\mu_0}{\tau_0^2} + \frac{n\bar{x}}{\sigma^2} \right). \]

De este modo, el prior normal actúa como si representara una muestra virtual de tamaño:

\[ n_0 = \frac{\sigma^2}{\tau_0^2}, \]

con media previa \(\mu_0\).

Ejemplo Normal-Normal

Supongamos que queremos estimar la media \(\mu\) del tiempo (en minutos) que los clientes pasan dentro de una tienda. Pensamos que, condicionado al valor de \(\mu\), el tiempo de permanencia de cada cliente sigue un modelo normal con varianza conocida \(\sigma^2 = 1\):

\[ X_i \mid \mu \sim \mathcal{N}(\mu, 1), \quad i = 1,\dots,n. \]

Antes de observar datos, representamos nuestra incertidumbre sobre \(\mu\) con un prior normal con parámetros \(\mu_0 = 6\) y \(\tau_0^2 = 1\):

\[ \mu \sim \mathcal{N}(6, 1). \]

Este prior favorece valores de la media en torno a \(6\) minutos, pero con una incertidumbre todavía apreciable.

Observamos ahora los tiempos (en minutos) de \(n = 5\) clientes consecutivos. Los datos observados son:

\[ x = (7.2,\ 6.8,\ 5.9,\ 6.3,\ 7.0). \]

La media muestral de estos tiempos es:

\[ \bar{x} = 6.64. \]

Queremos obtener la distribución posterior de \(\mu\) y comparar gráficamente el prior, la verosimilitud (en función de \(\mu\)) y la posterior.

Recordamos el modelo:

  • Datos condicionados a \(\mu\): \[ X_i \mid \mu \sim \mathcal{N}(\mu, \sigma^2), \quad \text{con } \sigma^2 = 1. \]
  • Prior sobre \(\mu\): \[ \mu \sim \mathcal{N}(\mu_0, \tau_0^2), \quad \text{con } \mu_0 = 6,\ \tau_0^2 = 1. \]

Los datos observados son: \[ x = (7.2,\ 6.8,\ 5.9,\ 6.3,\ 7.0), \] con \(n = 5\) y media muestral

\[ \bar{x} = 6.64. \]

La verosimilitud de \(\mu\) dada la muestra se puede escribir (ignorando constantes que no dependen de \(\mu\)) como

\[ L(\mu) \propto \exp\!\left( -\frac{n}{2\sigma^2}\,(\mu - \bar{x})^2 \right). \]

En nuestro caso, con \(n = 5\) y \(\sigma^2 = 1\):

\[ L(\mu) \propto \exp\!\left( -\frac{5}{2}(\mu - 6.64)^2 \right). \]

La densidad del prior normal sobre \(\mu\) es, de nuevo hasta una constante:

\[ \pi(\mu) \propto \exp\!\left( -\frac{1}{2\tau_0^2}(\mu - \mu_0)^2 \right). \]

Con \(\mu_0 = 6\) y \(\tau_0^2 = 1\):

\[ \pi(\mu) \propto \exp\!\left( -\frac{1}{2}(\mu - 6)^2 \right). \]

La posterior es proporcional al producto de verosimilitud y prior:

\[ \pi(\mu \mid x) \propto L(\mu)\,\pi(\mu). \]

Sustituyendo las expresiones anteriores:

\[ \pi(\mu \mid x) \propto \exp\!\left( -\frac{5}{2}(\mu - 6.64)^2 \right) \, \exp\!\left( -\frac{1}{2}(\mu - 6)^2 \right). \]

Podemos reagrupar los exponentes y completar cuadrados. El resultado es que la posterior sigue siendo normal:

\[ \mu \mid x \sim \mathcal{N}(\mu_n,\ \tau_n^2), \]

donde, en general,

\[ \tau_n^2 = \left( \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \right)^{-1}, \]

\[ \mu_n = \tau_n^2 \left( \frac{\mu_0}{\tau_0^2} + \frac{n\bar{x}}{\sigma^2} \right). \]

En nuestro ejemplo, con \(\tau_0^2 = 1\), \(\sigma^2 = 1\), \(\mu_0 = 6\), \(n = 5\) y \(\bar{x} = 6.64\):

\[ \tau_n^2 = \left( 1 + 5 \right)^{-1} = \frac{1}{6}, \]

\[ \mu_n = \frac{1}{6}\left( 6 + 5 \cdot 6.64 \right) = \frac{1}{6}(6 + 33.2) = \frac{39.2}{6} \approx 6.53. \]

Por tanto, la distribución posterior es

\[ \mu \mid x \sim \mathcal{N}(6.53,\ 1/6). \]

Code
library(ggplot2)

# Datos del ejemplo
x <- c(7.2, 6.8, 5.9, 6.3, 7.0)
n <- length(x)
xbar <- mean(x)

sigma2 <- 1          # varianza conocida
mu0 <- 6             # prior mean
tau02 <- 1           # prior variance

tau_n2 <- 1 / (1/tau02 + n/sigma2)
mu_n  <- tau_n2 * (mu0/tau02 + n*xbar/sigma2)

mu <- seq(5, 8, length.out = 1000)

prior <- dnorm(mu, mu0, sqrt(tau02))
lik   <- dnorm(mu, xbar, sqrt(sigma2/n))
posterior <- dnorm(mu, mu_n, sqrt(tau_n2))

df <- data.frame(mu, prior, lik, posterior)

ggplot(df, aes(x = mu)) +
  geom_line(aes(y = prior, colour = "Prior N(6,1)"), linewidth = 1) +
  geom_line(aes(y = lik/max(lik), colour = "Verosimilitud (escalada)"), linewidth = 1) +
  geom_line(aes(y = posterior, colour = "Posterior"), linewidth = 1) +
  scale_colour_manual(values = c("blue", "orange", "red")) +
  labs(title = "Conjugación Normal–Normal (varianza conocida)",
       y = "Densidad / Escala relativa",
       colour = "Distribución") +
  theme_minimal()

¿Cómo lo interpretamos? En este ejemplo, la distribución posterior

\[ \mu \mid x \sim \mathcal{N}(6.53,\ 1/6) \]

refleja cómo se combinan la información previa y los datos observados.
La media posterior está siempre entre la media previa y la media muestral:

\[ \mu_0 = 6, \qquad \bar{x} = 6.64, \qquad \mu_n = 6.53. \]

La posición de \(\mu_n\) depende del “peso” relativo de cada fuente de información:

  • El prior aporta una precisión de
    \[ \frac{1}{\tau_0^2} = 1, \]
  • Los datos aportan una precisión total de
    \[ \frac{n}{\sigma^2} = 5. \]

Por eso, la media posterior está más cerca de la media muestral que del prior:
los datos tienen más peso informativo.

Además, la varianza disminuye:

  • Varianza previa: \(\tau_0^2 = 1\)
  • Varianza posterior: \(\tau_n^2 = 1/6\)

lo que indica que después de observar los datos hay menos incertidumbre sobre \(\mu\).

En conjunto, este ejemplo ilustra cómo la conjugación Normal–Normal permite: - mantener la forma de la distribución tras la actualización, - combinar información previa y datos de forma transparente, - obtener una interpretación intuitiva basada en pesos o precisiones.

7. Alternativas Bayesianas a los contrastes de hipótesis clásicos

En inferencia clásica, los contrastes de hipótesis se formulan como:

  • una hipótesis nula \(H_0\) sobre un parámetro (por ejemplo, \(\mu = \mu_0\) o \(p = p_0\)),
  • una hipótesis alternativa \(H_1\),
  • y una regla de decisión basada en un estadístico y un nivel de significación (p-valor, región crítica, etc.).

El resultado es una decisión: “rechazar” o “no rechazar” \(H_0\), pero en ningún momento se asigna una probabilidad a que \(H_0\) o \(H_1\) sean ciertas.

En el enfoque bayesiano la perspectiva cambia:

  • tratamos el parámetro como aleatorio,
  • calculamos su distribución posterior,
  • y podemos responder preguntas del tipo
    \(P(H_0 \mid \text{datos})\), \(P(H_1 \mid \text{datos})\) o \(P(\theta > \theta_0 \mid \text{datos})\).

En lugar de “rechazar” una hipótesis, comparamos probabilidades posteriores o utilizamos el factor de Bayes como medida de evidencia.

En este apartado presentamos tres ideas clave:

  1. Decisión basada en probabilidades posteriores.
  2. Interpretación mediante intervalos de credibilidad.
  3. Comparación de modelos mediante factores de Bayes (introducción).

7.1. Decidir con probabilidades posteriores

Supongamos que queremos contrastar, en clásico:

  • \(H_0: \theta = \theta_0\)
  • \(H_1: \theta > \theta_0\)

En Bayes, en lugar de preguntar “¿rechazo \(H_0\)?”, planteamos:

“¿Cuál es la probabilidad de que \(\theta\) sea mayor que \(\theta_0\) después de ver los datos?”

En términos formales:

  • elegimos un prior \(\pi(\theta)\),
  • observamos los datos,
  • calculamos la posterior \(\pi(\theta \mid \text{datos})\),
  • y evaluamos:

\[ P(\theta > \theta_0 \mid \text{datos}) = \int_{\theta_0}^1 \pi(\theta \mid \text{datos})\,d\theta. \]

Una regla de decisión sencilla podría ser:

  • si \(P(\theta > \theta_0 \mid \text{datos}) > 0.95\)
    → existe fuerte evidencia a favor de que \(\theta\) es mayor que \(\theta_0\);
  • si \(P(\theta > \theta_0 \mid \text{datos})\) está alrededor de 0.5
    → los datos no aportan evidencia clara en ninguno de los sentidos.

7.2. Relación con los intervalos de credibilidad

Otra forma equivalente de razonar es mirar el intervalo de credibilidad de \(\theta\).

Por ejemplo:

  • si un intervalo de credibilidad del 95 % para \(\theta\) es \([0.38, 0.61]\),
  • y queremos contrastar \(H_0: \theta = 0.3\) frente a “\(\theta\) es mayor que 0.3”,

entonces el hecho de que todo el intervalo quede por encima de 0.3 sugiere que, dadas nuestras creencias previas y los datos, es muy poco probable que \(\theta\) sea 0.3 o menor.

En resumen:

  • los intervalos de credibilidad permiten dar decisiones implícitas sobre hipótesis,
  • sin necesidad de p-valores ni niveles de significación,
  • simplemente observando qué valores del parámetro tienen probabilidad posterior alta o baja.

7.3. Introducción al factor de Bayes

Cuando queremos comparar dos modelos o hipótesis de forma explícita, una herramienta central es el factor de Bayes.

Dados dos modelos \(H_0\) y \(H_1\):

\[ BF_{10} = \frac{P(\text{datos} \mid H_1)}{P(\text{datos} \mid H_0)}. \]

  • Si \(BF_{10} > 1\): los datos son más probables bajo \(H_1\) que bajo \(H_0\).
  • Si \(BF_{10} \gg 1\): fuerte evidencia a favor de \(H_1\).
  • Si \(BF_{10} \ll 1\): evidencia a favor de \(H_0\).

A diferencia del p-valor, el factor de Bayes:

  • compara directamente dos explicaciones,
  • y tiene interpretación simétrica: mide “cuántas veces más” apoyan los datos a un modelo frente al otro.

7.4. Ejemplo en R: ¿ha aumentado la proporción de clientes que compran?

Imaginemos una tienda online que lanza una nueva versión de su página principal.
Se quiere saber si ha aumentado la proporción de visitas que terminan en compra.

Planteamos:

  • \(\theta\): probabilidad de que una visita termine en compra con la nueva versión.
  • Queremos comparar con un objetivo de referencia \(\theta_0 = 0.10\) (10 %).

En clásico haríamos un contraste para la proporción. En Bayes seguiremos este procedimiento:

  1. Elegimos un prior para \(\theta\).
  2. Observamos los datos.
  3. Calculamos la posterior \(\theta \mid \text{datos}\).
  4. Calculamos \(P(\theta > 0.10 \mid \text{datos})\).
  5. (Opcional) Calculamos un factor de Bayes frente a \(H_0: \theta = 0.10\).

Observamos los datos

Supongamos que:

  • se observan \(n = 200\) visitas con la nueva página,
  • de las cuales \(k = 30\) terminan en compra (\(\hat{p} = 0.15\)).

Elegimos un prior

Elegimos un prior suave que favorezca valores alrededor del 10% pero con bastante incertidumbre, por ejemplo:

\[ \theta \sim \text{Beta}(\alpha,\beta) = \text{Beta}(2,18). \]

Esta Beta tiene media:

\[ \mathbb{E}[\theta] = \frac{\alpha}{\alpha + \beta} = \frac{2}{20} = 0.10, \]

lo que refleja nuestra creencia inicial de que la tasa de compra está en torno al 10%.

Cálculo de la posterior

Dado un prior \(\text{Beta}(\alpha,\beta)\) y datos binomiales (\(k\) éxitos de \(n\)), ya sabemos que:

\[ \theta \mid \text{datos} \sim \text{Beta}(\alpha + k,\ \beta + n - k). \]

En nuestro caso:

  • \(\alpha = 2\), \(\beta = 18\),
  • \(k = 30\), \(n = 200\),

por lo que la posterior es:

\[ \theta \mid \text{datos} \sim \text{Beta}(2 + 30,\ 18 + 200 - 30) = \text{Beta}(32,188). \]

Implementación en R

Code
alpha <- 2
beta  <- 18

n <- 200
k <- 30
theta0 <- 0.10

alpha_post <- alpha + k
beta_post  <- beta  + (n - k)

alpha_post; beta_post
[1] 32
[1] 188

Probabilidad posterior de que \(\theta\) supere el 10%

Calculamos \(P(\theta > 0.10 \mid \text{datos})\) usando la distribución posterior \(\text{Beta}(\alpha_{\text{post}}, \beta_{\text{post}})\):

Code
1 - pbeta(theta0, alpha_post, beta_post)
[1] 0.9808336

Este valor nos indica con qué probabilidad, dadas nuestras creencias previas y los datos observados, la tasa de conversión con la nueva versión de la página es superior al 10 %. Por ejemplo, un resultado de 0.97 se interpretaría como:

“Hay un 97 % de probabilidad de que la proporción real de compras sea mayor que el 10 %.”

Intervalo de credibilidad

Podemos complementar el análisis calculando un intervalo de credibilidad del 95 %:

Code
qbeta(c(0.025, 0.975), alpha_post, beta_post)
[1] 0.1021411 0.1948669

Si todo el intervalo está por encima de 0.10, la evidencia a favor de un incremento es aún más clara.

(Opcional) Factor de Bayes frente a \(H_0: \theta = 0.10\)

Para comparar explícitamente el modelo \(H_0 : \theta = 0.10\) con el modelo alternativo bayesiano \(H_1 : \theta \sim \text{Beta}(2,18)\), utilizamos el factor de Bayes, que mide cuánta evidencia aportan los datos a favor de un modelo frente al otro.

Recordemos que:

\[ BF_{10} = \frac{P(\text{datos} \mid H_1)}{P(\text{datos} \mid H_0)}. \]

Bajo \(H_0\), la verosimilitud binomial es:

\[ P(k \mid H_0) = \binom{n}{k}\,\theta_0^k(1-\theta_0)^{n-k}. \]

Bajo \(H_1\), la verosimilitud marginal (modelo Beta–Binomial) es:

\[ P(k \mid H_1) = \binom{n}{k} \frac{\mathrm{B}(\alpha + k,\, \beta + n - k)} {\mathrm{B}(\alpha,\, \beta)}, \]

donde \(\mathrm{B}(\cdot,\cdot)\) es la función Beta.

El factor de Bayes queda entonces:

\[ BF_{10} = \frac{\mathrm{B}(\alpha + k, \beta + n - k)} {\mathrm{B}(\alpha, \beta)\,\theta_0^k(1-\theta_0)^{n-k}}. \]

El cálculo en R es directo:

Code
log_BF10 <- lbeta(alpha_post, beta_post) - lbeta(alpha, beta) -
  (k * log(theta0) + (n - k) * log(1 - theta0))

BF10 <- exp(log_BF10)
BF10
[1] 2.333947

Interpretación:

Si \(BF_{10} > 1\), los datos son más probables bajo el modelo bayesiano \(H_1\).

Si \(BF_{10} \gg 1\), la evidencia a favor de \(H_1\) es fuerte.

Si \(BF_{10} \ll 1\), los datos apoyan más a \(H_0\).

Conclusión del análisis

El factor de Bayes complementa a la probabilidad posterior y al intervalo de credibilidad, permitiendo comparar hipótesis de forma explícita. A diferencia del p-valor, mide directamente cuánta evidencia relativa aportan los datos a cada modelo, ofreciendo una herramienta más interpretativa y coherente con la filosofía bayesiana.

8. Resumen final

En este capítulo hemos introducido la lógica fundamental de la inferencia bayesiana y la hemos comparado con la estadística clásica. Aunque ambos enfoques buscan responder a la misma pregunta —¿qué podemos decir sobre un parámetro o una hipótesis a partir de los datos?— lo hacen desde perspectivas conceptuales diferentes.

En el enfoque frecuentista, el parámetro es un valor fijo y desconocido, y toda la incertidumbre procede del muestreo. Las herramientas centrales —estimadores, intervalos de confianza y contrastes de hipótesis— describen el comportamiento de estos procedimientos a largo plazo. Así, un intervalo del 95% no expresa la probabilidad de que el parámetro esté en él, sino la frecuencia con la que el método acierta cuando se repite muchas veces el experimento.

El enfoque bayesiano, en cambio, trata el parámetro como una cantidad desconocida pero aleatoria, cuya incertidumbre se modela mediante una distribución previa. Al observar datos, esta información se combina con la verosimilitud mediante el Teorema de Bayes, dando lugar a la distribución posterior:

\[ \text{Posterior} \propto \text{Verosimilitud} \times \text{Prior}. \]

Esta perspectiva permite interpretar directamente las probabilidades como grados de creencia coherentes, así como responder a preguntas que los métodos clásicos no formulan de manera natural:
¿Cuál es la probabilidad de que la hipótesis sea cierta después de ver los datos?
¿Qué valores del parámetro son ahora más plausibles?

Los intervalos de credibilidad ofrecen también una interpretación inmediata: un intervalo del 95% contiene aquellos valores del parámetro que tienen un 95% de probabilidad (según el modelo) de ser los verdaderos, dado lo que sabemos antes y después de ver los datos.

A través de ejemplos —como el test médico o el caso narrativo de Shakira— hemos visto cómo los priors pueden modificar de manera sustancial la interpretación de la evidencia. El enfoque bayesiano recuerda que ningún dato se analiza en el vacío: siempre se evalúa comparándolo con lo que considerábamos plausible antes de observarlo. La acumulación de nueva evidencia se incorpora de forma natural: la posterior de hoy se convierte en el prior de mañana.

Finalmente, hemos introducido el concepto de distribuciones conjugadas, que simplifican el análisis permitiendo obtener posteriors de forma analítica. Los modelos Bernoulli–Beta, Poisson–Gamma y Normal–Normal muestran de manera clara cómo el prior actúa como “datos virtuales”. Esta propiedad no solo facilita los cálculos, sino que proporciona una interpretación intuitiva de cómo se combinan información previa y datos observados.

En conjunto, el enfoque bayesiano ofrece:

  • una interpretación directa de la incertidumbre,
  • un marco coherente para combinar información previa y datos,
  • herramientas flexibles para problemas con muestras pequeñas o evidencia secuencial,
  • y una forma natural de construir inferencias basadas en probabilidades sobre los propios parámetros.

En los siguientes capítulos profundizaremos en el uso práctico de la inferencia bayesiana, exploraremos nuevos modelos, y veremos cómo estas ideas se extienden a situaciones más complejas y realistas.

Esta tabla resume las diferencias principales:

Concepto Frecuentista Bayesiano
Parámetro $\theta$ Número fijo Variable aleatoria
Resultado Estimación puntual $\hat{\theta}$ Distribución $\pi(\theta \,|\, datos)$
Intervalo Confianza (frecuencia) Credibilidad (probabilidad)
Interpretación "95% de intervalos contienen $\theta$" "95% de probabilidad de que $\theta$ esté aquí"
Información previa No se incorpora Se incorpora (prior)

Por tanto, las ventajas del enfoque Bayesiano frente al frecuentista son:

  1. Interpretación directa
    • Probabilidades sobre el parámetro tienen sentido
    • Los intervalos dicen lo que queremos que digan
  2. Incorpora información previa
    • Conocimiento experto
    • Estudios anteriores
    • No desperdicias información
  3. Funciona con muestras pequeñas
    • El prior ayuda a regularizar
    • No necesitas asintóticos
  4. Marco unificado para decisiones
    • Toda la incertidumbre está cuantificada
    • Puedes calcular riesgos esperados