Eccoci! Ti allego qualche considerazione sui dati che mi hai mandato. Per comodità ho rinominato le classi (Start_az-End_az) con numeri da 1 a 18.
Se ho ben capito, siete interessati a vedere quale fra due modelli (N105E ed N115E) riproduce più da vicino l’effettiva distribuzione reale dei counts. Non avendo informazione sui modelli stessi, non posso che procedere per un confronto di tipo descrittivo (che ti presento per via grafica qui sotto) e, più avanti, un tentativo di verifica di ipotesi non parametrica.
Diamo un’occhiata a cosa effettivamente i due modelli riproducono, rispetto al dato reale. Il primo grafico (Counts distribution) riproduce gli istogrammi dei count che c’erano nel file excel che mi hai inviato, insieme al secondo (Kernel density estimates), fornisce una prima indicazione di aderenza dei modelli.
Dai grafici si evince come entrambi i modelli impiegati riconoscano l’esistenza di due mode locali (una sulle primissime classi e una sulle ultime), fallendo però nel compito di catturarne l’effettiva importanza (prevedono meno counts) e posizione (per entrambi i modelli la prima moda è un pochino più a destra, e la seconda abbastanza più a sinistra).
Lo studio della funzione di distribuzione empirica conferma ulteriormente quanto ipotizzato prima: i due modelli sono pressoché indistinguibili, e ‘spalmano’ (passami il termine tecnico) le frequenze maggiormente, rispetto a quanto osservato nella realtà (la funzione di distribuzione dei dati da modello è non più ripida di quella reale su quasi tutto il supporto). Ancora una volta abbiamo indicazione di come i modelli falliscano nel modellizzare bene le zone di massima densità (le code, in questo caso).
Passiamo ora a valutare, in termini di semplici differenze, lo scarto di frequenze relative previste dai modelli rispetto alla realtà, classe per classe. Nuovamente non possiamo che confermare l’impressione che i due modelli non siano distinguibili sotto l’aspetto previsivo. La linea orizzontale rappresenta il benchmark (differenza del dato reale con sé stesso, chiaramente nulla), e si vede distintamente come vi sia una forte sottostima (fino ad uno scarto massimo di -0.15 nella prima parte del supporto) delle frequenze reali; sulla coda destra stesso discorso, anche se meno accentuato (massima differenze per y=18, di circa -0.06). Nella parte centrale della distribuzione, le frequenze sono invece sovrastimate, fino ad un massimo scarto di circa 0.06 in eccesso). In confronto in termini di scarto relativo (ovvero qualcosa del tipo (modello - reale)/reale) porta alla conclusione che gli errori di previsione del count variano fra il -60% ed il +24%, punto più, punto meno, per entrambi i modelli.
Ora qualche considerazione inferenziale. L’utilizzo di un classico test di Kolmogorov-Smirnov (KS) per valutare l’uguaglianza distributiva non è particolarmente consigliato nel caso di dati discreti, per la presenza di ties (valori identici nei due campioni); questo non ne impedisce l’utilizzo, ma porta in generale ad essere più conservativi (l’alpha reale del test è più piccolo di quello nominale). Per non saper né leggere né scrivere, comunque, ecco l’output per i confronti dei dati da modello con il dato reale, e fra modelli.
## Warning in ks.test(y.real, y.N105E): p-value will be approximate in the
## presence of ties
##
## Two-sample Kolmogorov-Smirnov test
##
## data: y.real and y.N105E
## D = 0.24316, p-value < 2.2e-16
## alternative hypothesis: two-sided
Modello N105E vs dato reale: si rifiuta l’ipotesi nulla di uguaglianza distributiva.
## Warning in ks.test(y.real, y.N115E): p-value will be approximate in the
## presence of ties
##
## Two-sample Kolmogorov-Smirnov test
##
## data: y.real and y.N115E
## D = 0.25155, p-value < 2.2e-16
## alternative hypothesis: two-sided
Modello N115E vs dato reale: si rifiuta l’ipotesi nulla di uguaglianza distributiva.
## Warning in ks.test(y.N105E, y.N115E): p-value will be approximate in the
## presence of ties
##
## Two-sample Kolmogorov-Smirnov test
##
## data: y.N105E and y.N115E
## D = 0.034397, p-value = 0.804
## alternative hypothesis: two-sided
Modello N105E vs modelli N115E: non si può rifiutare l’ipotesi nulla di uguaglianza distributiva.
Ovvero, stando al KS, i due modelli non danno risultati distinguibili fra loro, e singolarmente non riproducono in modo soddisfacente il dato reale. Sarebbe più opportuno passare per un test di permutazione del KS, ma a questo potrete pensare in caso in fase di pubblicazione e dopo aver escluso altre verifiche parametriche legate alla natura dei modelli (likelihood ratio test, AIC, BIC e similari). Qualora avessi i dati originali, prima della suddivisione in classi, si potrebbe forse far qualcosa di meglio, ma dubito, a naso, che questo porterebbe a conclusioni differenti.
Per concludere, e nella totale ignoranza di come abbiate ottenuto le previsioni di count, vi suggerisco di buttare un occhio alla letteratura sulle misture discrete. Sono abbastanza sicuro che ci siano leggi di probabilità che possano rappresentare una U-shape asimmetrica come la vostra in modo più soddisfacente (se mi viene in mente qualcosa di più specifico ti faccio sapere).