(Sintesi divulgativa dell’articolo Plausibility, persuasion, and truth: why language models may appear designed to deceive, HUMANITIES AND SOCIAL SCIENCES COMMUNICATIONS https://doi.org/10.1057/s41599-026-07513-4)
Giulio Vidotto, Università di Padova
Quando un modello linguistico risponde su un terreno controverso (una scelta terapeutica, un evento storico, un conflitto geopolitico, una decisione elettorale), l’utente riceve spesso un testo fluido, coerente, ordinato; non necessariamente falso, ma sufficientemente sicuro da apparire autorevole. Se poi quel testo si rivela parziale, selettivo o fattualmente fragile, la reazione più immediata è attribuire alla macchina un’intenzione: mi sta mentendo, oppure mi sta orientando.
Questa reazione è comprensibile, ma non basta. L’impressione di menzogna deliberata va presa sul serio come dato psicologico; non però assunta subito come verdetto morale. Il punto non è assolvere la macchina, né cercare un colpevole nascosto nel sistema, ma capire quale configurazione produca risposte che sembrano intenzionalmente ingannevoli anche quando l’intenzione non è dimostrata.
La tesi è ristretta, ma decisiva: in molti casi l’apparenza di inganno è spiegata meglio in termini strutturali che intenzionali. Essa nasce dall’interazione fra meccanismi diversi: addestramento orientato alla plausibilità linguistica, post-addestramento che premia risposte utili e persuasive, allucinazione strutturale, bias delle fonti, e vulnerabilità cognitive dell’utente. Questi fattori non si limitano a sommarsi; si rinforzano. È da questa convergenza che nasce l’effetto più insidioso: una risposta coerente, direzionale, ripetuta, che per l’osservatore umano ha l’aspetto di un atto intenzionale.
Un modello linguistico standard non nasce come dispositivo di verifica del vero. La sua funzione di base è generare continuazioni plausibili di un testo, cioè sequenze linguistiche che assomiglino al discorso umano così come compare nei corpora disponibili. La plausibilità distribuzionale non coincide con la verità; può sovrapporsi ad essa, spesso lo fa, ma non ne è la forma tecnica.
Il post-addestramento, in particolare attraverso il reinforcement learning from human feedback (RLHF), modifica in modo importante il comportamento del sistema: lo rende più capace di seguire istruzioni, più ordinato nel tono, meno esposto ad alcuni fallimenti, più vicino alle preferenze dei valutatori umani. Tuttavia non lo trasforma, per questo solo fatto, in un apparato di controllo epistemico. Un sistema ottimizzato per produrre risposte che gli esseri umani giudicano buone è, almeno in parte, un sistema ottimizzato per la qualità percepita; e qualità percepita e qualità epistemica non sono la stessa cosa.
La fessura si apre qui. Una risposta può essere linguisticamente ben formata, psicologicamente rassicurante, argomentativamente composta, e tuttavia incompleta o sbilanciata. Il problema diventa più serio quando questa asimmetria si combina con tre ulteriori elementi: l’allucinazione strutturale, il bias delle fonti e l’effetto della fluidità sulla credibilità.
L’allucinazione non è soltanto un errore occasionale, né semplicemente una bizzarria del sistema. Può essere definita, in senso più preciso, come produzione di contenuto non sostenuto dai dati o dal contesto disponibile, ma presentato con le stesse proprietà superficiali di una risposta corretta. L’errore non arriva con il volto dell’errore; arriva con la sintassi della competenza.
Questo è il punto psicologicamente più delicato. La risposta allucinata non si presenta come ipotesi fragile, approssimazione o congettura. Si presenta con fluidità, sicurezza apparente e coerenza narrativa. La forma linguistica, invece di segnalare il limite, lo copre. In questo senso l’allucinazione è strutturale non perché sia inevitabile in ogni singola risposta, ma perché appartiene al rischio ordinario di sistemi vincolati a produrre testi completi e coerenti anche quando l’informazione disponibile è parziale, ambigua o insufficiente.
Il bias delle fonti agisce invece a monte. I modelli sono addestrati su testi disponibili, e la disponibilità non è una proprietà neutra: dipende da chi scrive, da chi pubblica, da quali lingue sono dominanti, da quali archivi vengono digitalizzati, da quali istituzioni possiedono la capacità di produrre e conservare conoscenza. Ciò che appare “standard” nell’output di un modello può dunque riflettere non una neutralità epistemica, ma la maggiore densità di certe tradizioni, lingue, istituzioni o prospettive nei corpora di addestramento.
È il caso, ad esempio, delle raccomandazioni terapeutiche. Se un modello, interrogato sui trattamenti per l’ansia sociale, menziona con regolarità la terapia cognitivo-comportamentale, la mindfulness e la terapia psicodinamica, ma trascura altre opzioni consolidate, non è necessario supporre un’intenzione editoriale deliberata. Può bastare la distribuzione dei testi su cui è stato addestrato. Il danno pratico resta possibile; il meccanismo, però, è diverso.
Questi meccanismi tecnici non operano nel vuoto. Incontrano utenti che interpretano la conversazione secondo aspettative umane. Di fronte a un’interfaccia dialogica, siamo portati ad applicare implicitamente il principio cooperativo di Grice: ci aspettiamo che chi risponde sia pertinente, informato, sufficientemente sincero, orientato allo scambio. Quando una risposta omette prospettive rilevanti o riproduce con sicurezza una narrazione dominante, non percepiamo una distribuzione statistica; percepiamo una violazione della cooperazione.
A ciò si aggiunge un fatto noto della psicologia sociale e cognitiva: gli esseri umani attribuiscono intenzionalità a pattern coerenti, ricorrenti e direzionali anche quando non è dimostrata la presenza di un agente intenzionale (Heider & Simmel, 1944). Se un sistema produce risposte che, in ambiti diversi, appaiono stabilmente orientate nella stessa direzione, la mente umana tende a leggere quella direzione come scopo.
L’effetto viene rafforzato dalla fluidità. Reber e Schwarz (1999) hanno mostrato che ciò che è più facile da processare tende a essere giudicato più vero. Un testo ordinato, scorrevole, sintatticamente pulito, soprattutto quando riguarda un tema che l’utente non è in grado di verificare autonomamente, riceve un credito epistemico superiore a quello che meriterebbe. Qui entra in gioco anche l’automation bias: la tendenza ad attribuire peso eccessivo all’output di un sistema automatizzato, in particolare quando il dominio è complesso, l’utente non possiede competenze specifiche e la risposta viene presentata con sicurezza.
L’utente, in queste condizioni, non riceve soltanto un’informazione. Riceve un’informazione confezionata nella forma che massimizza la sua accettabilità proprio quando le risorse critiche per valutarla sono più deboli.
La questione non resta confinata alla teoria. La ricerca recente sulla persuasione conversazionale mostra che i modelli linguistici possono influenzare opinioni su temi controversi con efficacia comparabile, e in alcune condizioni superiore, a quella di interlocutori umani. Il risultato più rilevante, tuttavia, non è solo la capacità persuasiva. È il rapporto fra persuasione e accuratezza.
Hackenburg e colleghi (2025), studiando leve di persuasione attraverso numerosi temi politici e diversi modelli, mostrano che alcune tecniche di post-training e di prompting capaci di aumentare l’efficacia persuasiva possono ridurre l’accuratezza fattuale. Il punto non è aneddotico. Se l’obiettivo operativo diventa convincere, la verità rischia di cessare di essere un vincolo assoluto e di diventare una variabile di costo all’interno della funzione di ottimizzazione.
Questo non richiede malizia. Richiede solo una certa architettura degli incentivi. In domini nei quali l’affermazione più persuasiva non coincide necessariamente con quella più accurata, ottimizzare per la persuasione produce un costo epistemico prevedibile. Se poi il sistema viene usato in contesti di formazione dell’opinione (salute, elezioni, scuola, giustizia, interpretazione storica, geopolitica), quel costo non è più un rischio astratto. È una proprietà operativa da governare.
Vi è inoltre un paradosso istruttivo. Kadavath e colleghi (2022) mostrano che alcuni modelli, sotto condizioni specifiche di elicitation, possono produrre segnali abbastanza calibrati di incertezza. La capacità di comunicare limiti epistemici, dunque, non è semplicemente assente. Il problema è che non viene attivata in modo affidabile nel flusso conversazionale ordinario; e spesso non viene richiesta dagli utenti che avrebbero più bisogno di riceverla, proprio perché non possiedono il vocabolario tecnico per sollecitarla.
In assenza di una richiesta esplicita di calibrazione, la risposta tende a presentarsi più certa di quanto dovrebbe.
Se l’impressione di inganno deriva dall’interazione di meccanismi strutturali, la risposta normativa non dovrebbe dipendere anzitutto dalla ricerca del dolo. Dovrebbe cominciare da una diagnosi empirica: quali meccanismi stanno operando, con quale intensità, in quale dominio d’uso, sotto quali condizioni di interazione.
Propongo di chiamare audit epistemico un insieme iniziale di misure ripetibili e pubblicamente verificabili, orientate a distinguere quattro classi di fallimento: (a) errore fattuale; (b) omissione sistematica; (c) bias del corpus; (d) distorsione indotta da post-addestramento o prompt design. La distinzione è necessaria perché i rimedi non sono equivalenti.
L’errore fattuale richiede tecniche di grounding, retrieval augmentation e calibrazione. L’omissione sistematica richiede diversificazione delle fonti e trasparenza sulla provenienza dell’informazione. Il bias del corpus richiede interventi più a monte: documentazione dei dati, criteri di rappresentazione, investimenti in infrastrutture di conoscenza multilingue e non occidentali. La distorsione da post-addestramento o da prompt richiede trasparenza sul design, standard d’uso e policy di deployment.
Confondere queste classi produce cattiva regolazione. Si rischia di correggere l’errore come se fosse bias, il bias come se fosse errore, la persuasione come se fosse semplice usabilità, oppure l’omissione come se fosse una svista locale. In tutti questi casi il sintomo visibile viene trattato, ma il meccanismo generativo resta intatto.
Un nucleo minimo di audit dovrebbe includere almeno cinque misure: (a) il tasso di affermazioni verificabili, cioè la proporzione di asserzioni empiriche accompagnate da evidenze citabili; (b) il rapporto tra assertività e incertezza, cioè la frequenza dei marcatori di sicurezza rispetto a formulazioni condizionali o ammissioni esplicite di limite; (c) la diversità istituzionale e linguistica delle fonti, come proxy dell’asimmetria del corpus nel dominio considerato; (d) la sensibilità alle variazioni di prompt, cioè il grado in cui la risposta cambia quando la stessa domanda viene posta in lingue, registri o cornici diverse; (e) la coerenza sotto interrogazione successiva, cioè la stabilità logica quando l’utente chiede prove, verifica passaggi o contesta affermazioni specifiche.
Queste misure non sono benchmark rassicuranti. Sono un punto di partenza diagnostico. Un modello che produca molte affermazioni non verificabili, mostri bassa diversità delle fonti, cambi sensibilmente al variare del framing e diventi instabile sotto follow-up non dovrebbe essere impiegato per la formazione di opinioni in contesti elettorali, giudiziari o educativi senza controlli esterni, anche se ottiene buone prestazioni su benchmark tradizionali.
La diagnosi strutturale modifica anche il modo in cui assegniamo responsabilità. Se il rischio è noto, documentato e tecnicamente collegato a leve controllabili, la domanda rilevante non è più soltanto se qualcuno abbia voluto manipolare l’utente. Diventa un’altra: chi possiede competenza e controllo effettivo sui meccanismi che producono la distorsione, e quali mitigazioni avrebbe potuto ragionevolmente attivare?
La consapevolezza del rischio strutturale ha un effetto costitutivo sullo status normativo delle scelte successive. Un fornitore che conosce il trade-off fra persuasione e accuratezza, e continua a ottimizzare un sistema per efficacia persuasiva in contesti nei quali l’accuratezza è critica, non può trattare le distorsioni come semplici artefatti imprevedibili. Una piattaforma che integra modelli linguistici in flussi informativi ad alto impatto senza contextualizzazione condivide la responsabilità delle conseguenze prevedibili. Un regolatore che non impone standard di auditing disponibili lascia aperto un vuoto di governo. Un’istituzione formativa che introduce questi sistemi senza alfabetizzazione critica espone gli utenti a una vulnerabilità epistemica che non può essere liquidata come uso individuale improprio.
Attribuire una responsabilità genericamente diffusa a un sistema opaco tende a renderla, di fatto, irresponsabile. Una ripartizione proporzionale alle competenze e al controllo effettivo è meno comoda, ma più applicabile. Non tutti rispondono di tutto; ciascuno risponde delle leve che conosce, controlla o dovrebbe controllare.
Se un modello linguistico dà l’impressione di mentire, la risposta più appropriata non è decidere subito che mente, né concludere che il problema non esiste perché manca un’intenzione dimostrabile. L’impressione va trattata per ciò che è: un dato psicologico e, insieme, un’ipotesi tecnica.
I meccanismi considerati (ottimizzazione della plausibilità, incentivi post-addestramento alla persuasione, allucinazione strutturale, bias delle fonti) sono sufficienti, presi insieme, a spiegare molti degli effetti osservati senza dover postulare, nel sistema, un’intenzione ingannevole. La loro interazione produce coerenza, ricorrenza e direzionalità; e questi sono precisamente i segnali che l’osservatore umano tende a interpretare come intenzione.
La distinzione fra artefatto strutturale e manipolazione intenzionale non è una sottigliezza. Determina lo spazio dell’intervento.
Sanzionare chi sviluppa o distribuisce un modello per bias del corpus, da solo, non riduce il bias del corpus; obblighi di trasparenza sulle fonti e audit indipendenti possono farlo. Pretendere neutralità assoluta su temi controversi è tecnicamente ingenuo e concettualmente fragile; richiedere diversità misurabile delle fonti, comunicazione calibrata dell’incertezza e standard di deployment proporzionati al rischio epistemico è invece possibile.
Non si tratta di chiedere alla macchina di essere umana. Si tratta di evitare che la sua fluidità diventi un surrogato della verità. In assenza di una neutralità assoluta, che non è né raggiungibile né facilmente definibile, l’ambizione realistica è più sobria: rendere il rischio misurabile, la responsabilità tracciabile e il danno governabile.
La domanda, allora, non è soltanto se qualcuno ci stia mentendo. È se siamo disposti a costruire strumenti capaci di rendere visibili i meccanismi della distorsione prima che la loro coerenza statistica diventi, per molti utenti, l’unica bussola epistemica disponibile.