Giulio Vidotto, Università di Padova
L’articolo affronta una domanda apparentemente semplice: perché, quando interagiamo con un modello linguistico come ChatGPT, a volte abbiamo la sensazione di essere deliberatamente ingannati?
La risposta degli autori è controintuitiva: non è una questione di intenzione, ma di struttura. I modelli non “vogliono” ingannarci — non hanno volontà — ma quattro meccanismi tecnici, interagendo tra loro, producono esattamente quell’effetto.
Raile (2024) ha analizzato le risposte di ChatGPT sulle opzioni terapeutiche per il disturbo d’ansia sociale. Il modello raccomandava sistematicamente: - terapia cognitivo-comportamentale (CBT) - approcci mindfulness-based - terapia psicodinamica
…ignorando molte altre alternative consolidate. Solo se l’utente menzionava esplicitamente la logoterapia, il modello ne parlava — e solo parzialmente.
Perché? Non per una scelta editoriale deliberata, ma perché la CBT è sovrarappresentata nella letteratura digitale su cui il modello è stato addestrato.
Il danno pratico è reale; il meccanismo, però, è strutturale.
Gli autori identificano quattro fattori che, insieme, producono l’impressione di inganno intenzionale:
Un modello linguistico è addestrato a prevedere la continuazione più probabile di un testo. Il suo obiettivo non è “dire la verità”, ma generare sequenze che sembrino discorso umano.
Le procedure di post-training (in particolare il Reinforcement Learning from Human Feedback – RLHF) migliorano il comportamento del modello, ma non lo trasformano in un verificatore di fatti.
Un modello addestrato a generare risposte che piacciono agli esseri umani è un modello ottimizzato per la qualità percepita, non per la qualità epistemica.
Per allucinazione si intende la produzione di contenuti non supportati dai dati disponibili, presentati però con le stesse caratteristiche superficiali di un output accurato.
Il punto psicologicamente cruciale: le risposte allucinatorie non si presentano come incerte o anomale. Hanno la stessa fluidità, la stessa apparente sicurezza e la stessa coerenza narrativa delle risposte corrette.
Lo studio TruthfulQA (Lin et al., 2022) dimostra che i modelli tendono a generare risposte false ma plausibili quando gli stereotipi culturali o le credenze diffuse offrono una risposta più “scrivibile” di quella accurata.
Il sistema non mente: imita la texture del discorso affidabile senza essere vincolato ai suoi requisiti di contenuto.
L’addestramento si basa su testi disponibili, ma la disponibilità non è una proprietà neutrale: riflette il potere editoriale, le lingue dominanti, le infrastrutture di digitalizzazione, le priorità archivistiche.
Ciò che appare “canonico” nelle risposte del modello rispecchia ciò che è più densamente rappresentato nei corpora globali — che a loro volta riflettono asimmetrie nella produzione e conservazione della conoscenza.
Ricerche recenti (Buyl et al., 2026; Noels et al., 2026) documentano disparità ideologiche e geopolitiche sistematiche tra modelli sviluppati in contesti nazionali diversi.
Queste asimmetrie non sono scelte esplicite di singoli attori: sono proprietà emergenti di una catena di fornitura che introduce pressioni selettive a ogni stadio.
Reber e Schwarz (1999) dimostrano che la fluidità di elaborazione aumenta direttamente i giudizi di verità: ciò che è più facile da processare viene giudicato più vero.
Un modello ottimizzato per le preferenze umane è, in parte, un massimizzatore di fluidità. La competenza percepita attribuita socialmente ai sistemi intelligenti aggiunge un moltiplicatore di credibilità che opera indipendentemente dall’accuratezza del contenuto.
I quattro fattori non si sommano: si amplificano a vicenda, producendo output che sono: - coerenti - consistenti tra argomenti diversi - sistematicamente orientati in direzioni che riflettono le distribuzioni del training
Questa combinazione — coerenza + consistenza + direzionalità — è esattamente ciò che negli osservatori umani attiva l’attribuzione di agentività. Quando vediamo un pattern coerente e direzionale, inferiamo uno scopo.
L’inferenza di inganno intenzionale è, in questo senso, una risposta cognitiva prevedibile a un fenomeno tecnico strutturale.
I meccanismi strutturali interagiscono con vulnerabilità cognitive documentate:
L’automation bias (Parasuraman & Riley, 1997) è la tendenza a sovrastimare gli output dei sistemi automatizzati rispetto ad altre fonti di informazione — anche in presenza di prove contraddittorie.
Il bias è più forte esattamente nelle condizioni in cui si consulta un LLM su questioni importanti: - dominio complesso - utente privo di expertise indipendente - sistema che presenta output con apparente sicurezza
La capacità persuasiva dei modelli non è solo un’inferenza teorica:
| Studio | Risultato |
|---|---|
| Bai et al. (2025) | I messaggi generati da LLM influenzano le opinioni su questioni politiche contestate con efficacia paragonabile ai testi umani |
| Salvi et al. (2025) | GPT-4, se personalizzato, supera significativamente gli interlocutori umani in efficacia persuasiva |
| Hackenburg et al. (2025) | Le tecniche che aumentano la persuasione possono ridurre l’accuratezza fattuale |
Quest’ultimo risultato è il più rilevante: esiste un trade-off strutturale tra persuasione e accuratezza. Se l’obiettivo operativo è convincere, la verità diventa una variabile di costo da gestire, non un vincolo da rispettare.
Gli autori propongono un framework di auditing epistemico che distingue quattro classi di fallimento dell’output:
| Classe | Descrizione | Rimedio |
|---|---|---|
| Errore fattuale | Produzione di affermazioni verificabilmente false | Retrieval augmentation, grounding, calibration training |
| Omissione sistematica | Mancata rappresentazione di certe prospettive/metodi/popolazioni | Requisiti di diversità del corpus, standard di trasparenza delle fonti |
| Corpus bias | Orientamento sistematico verso le prospettive più rappresentate nel training | Interventi a monte del training: standard di documentazione, investimenti in infrastrutture multilingue |
| Distorsione da post-training o prompt | Modifica sistematica del contenuto attraverso scelte del reward model o strategie di prompting | Trasparenza del design, standard per le policy d’uso |
Il framework proposto non richiede di dimostrare l’intenzione manipolativa per attribuire responsabilità. Il trade-off persuasione/accuratezza è ora nel registro scientifico pubblico.
La responsabilità è distribuita lungo la catena:
Se un modello linguistico dà all’utente l’impressione di essere deliberatamente ingannato, la risposta appropriata è trattare quell’impressione come un dato psicologico e un’ipotesi tecnica, non come un verdetto morale.
La distinzione tra artefatto strutturale e manipolazione intenzionale non è accademica: determina quali interventi possono rivelarsi efficaci e dove può essere significativamente assegnata la responsabilità.
In assenza di neutralità assoluta — che non è né raggiungibile né coerentemente definibile — l’obiettivo realistico è costruire un ecosistema di governance che renda il rischio misurabile, la responsabilità tracciabile e il danno governabile.
Allucinazione (hallucination): produzione da parte di un LLM di contenuti non supportati dai dati disponibili, presentati con le stesse caratteristiche superficiali di output accurati.
Automation bias: tendenza cognitiva a sovrastimare l’affidabilità degli output di sistemi automatizzati, anche in presenza di prove contraddittorie.
Corpus bias: orientamento sistematico degli output verso le prospettive e i contenuti più densamente rappresentati nei dati di addestramento.
Distorsione epistemica: alterazione sistematica della rappresentazione della conoscenza, indipendentemente dall’intenzione di chi ha prodotto il sistema.
Epistemic auditing: insieme di misure ripetibili e verificabili pubblicamente, destinate a identificare e classificare le diverse forme di fallimento epistemico di un LLM.
Fluency-credibility effect: fenomeno per cui la fluidità linguistica di un testo aumenta la probabilità che venga giudicato vero dall’interlocutore.
Grounding: tecnica che ancora le risposte di un LLM a fonti documentate e verificabili, riducendo il rischio di allucinazione.
Hedging: uso di formulazioni linguistiche che esprimono incertezza o limitazione epistemica (es. “potrebbe”, “secondo alcune fonti”, “non è certo che…”).
Large Language Model (LLM): modello di intelligenza artificiale addestrato su grandi quantità di testo per generare risposte linguisticamente coerenti e contestualmente appropriate.
Omissione sistematica: mancata rappresentazione costante di certe prospettive, metodi, evidenze o popolazioni negli output di un modello — distinta dall’errore fattuale.
Plausibility optimization: ottimizzazione del modello per generare output che sembrano corretti e appropriati nel contesto, indipendentemente dalla loro accuratezza fattuale.
Post-training: fase di addestramento successiva a quella principale, che modifica il comportamento del modello (es. tramite RLHF) senza ridefinirne l’obiettivo fondamentale.
Reinforcement Learning from Human Feedback (RLHF): tecnica di post-training in cui il modello viene ottimizzato sulla base delle preferenze espresse da valutatori umani, selezionando output percepiti come più utili e appropriati.
Retrieval augmentation: tecnica che integra il LLM con un sistema di recupero di documenti, permettendo di ancorare le risposte a fonti esterne verificabili.
Source bias: distorsione degli output derivante dalle asimmetrie nella produzione, archiviazione e digitalizzazione della conoscenza che caratterizzano i corpora di addestramento.
Trade-off persuasione/accuratezza: relazione inversa documentata empiricamente tra l’efficacia persuasiva di un output e la sua accuratezza fattuale.
Dispensa elaborata sulla base di: “Plausibility, Persuasion, and Truth: Why Language Models May Appear Designed to Deceive”