Approccio Frequentista vs Approccio Bayesiano

Fabio Paderi 9/12/2017

In questo documento voglio mostrare in modo semplificato le diverse conclusioni a cui è possibile giungere quando si fa inferenza secondo i due approcci Frequentista e Bayesiano. E’ uno spunto per i non addetti ai lavori; gli esperti mi perdoneranno omissioni e semplificazioni (spero).

Lo scenario

Vogliamo scoprire se un nuovo farmaco contraccettivo è più efficace rispetto al farmaco prescritto secondo la terapia standard. Ipotizziamo di avere un campione di \(N\) donne e di aver prescritto a metà di esse il nuovo farmaco, mentre all’altra metà la terapia standard.

Nei 100 giorni successivi al trattamento scopriamo che, tra le donne che hanno ricevuto la terapia standard, 4 sono rimaste incinta. Tra le donne che hanno ricevuto il nuovo farmaco, nessuna è rimasta incinta.

Statisticamente è possibile analizzare questi dati come se provenissero da una distribuzione binomiale.
Immaginiamo una moneta con due facce, nella prima c’è la terapia standard, nella seconda la nuova terapia. La moneta viene lanciata 4 volte (le quattro donne incinta che si presentano al consultorio) ed ognuna delle volte il risultato è la faccia con la terapia standard.

Approccio Frequentista

Il modo più comune per il test di ipotesi nell’approccio Frequentista è il Null Hypothesis Significance Testing (NHTS).
Per farla semplice, si stabiliscono un’ipotesi nulla \(H_0\) ed un’ipotesi alternativa \(H_a\) e si calcola la probabilità dei dati osservati condizionata all’ipotesi nulla, il famoso P-Value ovvero \(P(dati|H_{0})\).
Se il valore di p è inferiore al livello di significatività \(\alpha\) stabilito a priori (in genere = \(0.05\)), si conclude che i dati forniscono sufficienti evidenze per rifiutare l’ipotesi nulla (con una probabilità di errore del 5%).
Esistono una serie di assunzioni legate a questo approccio che però non ho modo di evidenziare in questo contesto.

Tornando al nostro esempio. La nostra ipotesi nulla è che la probabilità associata alle due facce della moneta sia la stessa, p= 0.5. Ovvero uguale probabilità di rimanere incinta con il nuovo farmaco e con la terpia standard L’ipotesi alternativa invece sarà invece p \(\neq\) 0.5

\(H_0\): \(p\) = 0.5

\(H_A\): \(p < 0.5\)

A questo punto calcoliamo la probabilità dei dati condizionata ad \(H_0\), \(P(dati|H_{0})\).
Non ci sarebbe bisogno di R per calcolare questa probabilità perchè non è altro che la probabilità di 4 successi su 4 lanci di una moneta quindi \(0.5^4\) = 0.0625, tuttavia vi mostro come si arriva allo stesso risultato su R

dbinom(x = 4, size = 4, prob = 0.5)
[1] 0.0625
Conclusione

Il nostro \(p-value\) è maggiore rispetto al livello di significatività \(\alpha\), quindi non possiamo rifiutare l’ipotesi che le due terapie abbiano la stessa efficacia.

Approccio Bayesiano

L’approccio Bayesiano non prevede ipotesi nulla e ipotesi alternativa, ma consente di calcolare la probabilità della nostra ipotesi condizionata ai dati \(P(H|dati)\). Questa probabilità è detta Posterior.
In questo caso consente di rispondere alla domanda: in base ai dati che abbiamo raccolto qual è la probabilità che il nuovo farmaco sia migliore rispetto alla terapia standard?

L’approccio bayesiano prevede di stabilire una distribuzione di probabilità a priori (Prior) per il parametro p, che corrisponde alle nostre credenze a priori rispetto al suddetto parametro (\(p\) è sempre il parametro della nostra distribuzione binomiale). Ipotizziamo di essere nella condizione in cui non abbiamo idea del valore di p; la distribuzione che sceglieremo sarà la distribuzione uniforme compresa tra 0 e 1, che associa ad ogni valore di p la stessa probabilità.
In questo esempio ricorreremo alle distribuzioni coniugate beta-binomiale (argomento che non è possibile approfondire in questo contesto)

La distribuzione uniforme corrisponde alla distribuzione Beta quando i parametri \(\alpha\) e \(\beta\) sono 1 e 1 (qui sotto la dimostrazione grafica).

par(mfrow = c(1, 2))

curve(dunif(x, 0, 1), main = "Uniforme")

curve(dbeta(x, 1, 1), main = "Beta(1,1)")

La nostra prior quindi sarà \(p\) ~ Beta(\(\alpha\) = 1, \(\beta\) = 1)

Per le proprietà della distribuzione beta-binomiale che non approfondirò qui, sappiamo che la posterior, ovvero \(P(H|dati)\), corrisponde ad una Beta(\(\alpha\) + x, \(\beta\) + N - x) dove \(\alpha\) e \(\beta\) sono i parametri della prior,x è il numero di successi ed N il numero di casi.

Ricordiamo che i successi, se consideriamo per comodità come successo il numero di volte che una donna è rimasta incinta con il nuovo farmaco, sono stati 0 su 4.

La nostra posterior quindi sarà una Beta(1, 5).

Osservate come è cambiata la nostra iniziale credenza grazie ai dati raccolti (per comodità sono simulate 1000 v.c.)

par(mfrow = c(1,2))


curve(dbeta(x, 1, 1), main = "Prior")

curve(dbeta(x, 1, 5), main = "Posterior")

A questo punto vogliamo sapere qual è la probabilità che \(p\) sia inferiore a 0.5 ovvero qual è la probabilità che il nuovo farmaco sia migliore rispetto alla terapia standard?

1 - pbeta(0.5, 1, 5, lower.tail = FALSE)
[1] 0.96875
Conclusione

Sulla base dei dati che abbiamo raccolto, la probabilità che la nuova terapia sia più efficace rispetto alla terapia standard è di circa il 97%

Discussione

Come potete vedere le conclusioni a cui si giunge con i due approcci sono diverse. Nel primo caso, i dati a supporto del nuovo farmaco non sono sufficienti per affermare che esiste una differenza significativa tra le due terapie. Il risultato del secondo approccio mostra che la probabilità che il nuovo farmaco sia più efficace è del 97%