Mini-dispensa per dottorandi

Giulio Vidotto, Università di Padova

Plausibilità, Persuasione e Verità: perché i modelli linguistici possono sembrare progettati per ingannare

1. Di cosa parla questo articolo?

L’articolo affronta una domanda apparentemente semplice: perché, quando interagiamo con un modello linguistico come ChatGPT, a volte abbiamo la sensazione di essere deliberatamente ingannati?

La risposta degli autori è controintuitiva: non è una questione di intenzione, ma di struttura. I modelli non “vogliono” ingannarci — non hanno volontà — ma quattro meccanismi tecnici, interagendo tra loro, producono esattamente quell’effetto.

2. Il problema di partenza: un esempio concreto

Raile (2024) ha analizzato le risposte di ChatGPT sulle opzioni terapeutiche per il disturbo d’ansia sociale. Il modello raccomandava sistematicamente: - terapia cognitivo-comportamentale (CBT) - approcci mindfulness-based - terapia psicodinamica

…ignorando molte altre alternative consolidate. Solo se l’utente menzionava esplicitamente la logoterapia, il modello ne parlava — e solo parzialmente.

Perché? Non per una scelta editoriale deliberata, ma perché la CBT è sovrarappresentata nella letteratura digitale su cui il modello è stato addestrato.

Il danno pratico è reale; il meccanismo, però, è strutturale.

3. I quattro meccanismi generatori

Gli autori identificano quattro fattori che, insieme, producono l’impressione di inganno intenzionale:

3.1 Ottimizzazione per la plausibilità, non per la verità

Un modello linguistico è addestrato a prevedere la continuazione più probabile di un testo. Il suo obiettivo non è “dire la verità”, ma generare sequenze che sembrino discorso umano.

Le procedure di post-training (in particolare il Reinforcement Learning from Human Feedback – RLHF) migliorano il comportamento del modello, ma non lo trasformano in un verificatore di fatti.

Un modello addestrato a generare risposte che piacciono agli esseri umani è un modello ottimizzato per la qualità percepita, non per la qualità epistemica.

3.2 Allucinazione strutturale

Per allucinazione si intende la produzione di contenuti non supportati dai dati disponibili, presentati però con le stesse caratteristiche superficiali di un output accurato.

Il punto psicologicamente cruciale: le risposte allucinatorie non si presentano come incerte o anomale. Hanno la stessa fluidità, la stessa apparente sicurezza e la stessa coerenza narrativa delle risposte corrette.

Lo studio TruthfulQA (Lin et al., 2022) dimostra che i modelli tendono a generare risposte false ma plausibili quando gli stereotipi culturali o le credenze diffuse offrono una risposta più “scrivibile” di quella accurata.

Il sistema non mente: imita la texture del discorso affidabile senza essere vincolato ai suoi requisiti di contenuto.

3.3 Source bias (distorsione delle fonti)

L’addestramento si basa su testi disponibili, ma la disponibilità non è una proprietà neutrale: riflette il potere editoriale, le lingue dominanti, le infrastrutture di digitalizzazione, le priorità archivistiche.

Ciò che appare “canonico” nelle risposte del modello rispecchia ciò che è più densamente rappresentato nei corpora globali — che a loro volta riflettono asimmetrie nella produzione e conservazione della conoscenza.

Ricerche recenti (Buyl et al., 2026; Noels et al., 2026) documentano disparità ideologiche e geopolitiche sistematiche tra modelli sviluppati in contesti nazionali diversi.

Queste asimmetrie non sono scelte esplicite di singoli attori: sono proprietà emergenti di una catena di fornitura che introduce pressioni selettive a ogni stadio.

3.4 Il rapporto fluidità-credibilità

Reber e Schwarz (1999) dimostrano che la fluidità di elaborazione aumenta direttamente i giudizi di verità: ciò che è più facile da processare viene giudicato più vero.

Un modello ottimizzato per le preferenze umane è, in parte, un massimizzatore di fluidità. La competenza percepita attribuita socialmente ai sistemi intelligenti aggiunge un moltiplicatore di credibilità che opera indipendentemente dall’accuratezza del contenuto.

4. Perché questi meccanismi sembrano “intenzione”?

I quattro fattori non si sommano: si amplificano a vicenda, producendo output che sono: - coerenti - consistenti tra argomenti diversi - sistematicamente orientati in direzioni che riflettono le distribuzioni del training

Questa combinazione — coerenza + consistenza + direzionalità — è esattamente ciò che negli osservatori umani attiva l’attribuzione di agentività. Quando vediamo un pattern coerente e direzionale, inferiamo uno scopo.

L’inferenza di inganno intenzionale è, in questo senso, una risposta cognitiva prevedibile a un fenomeno tecnico strutturale.

5. L’amplificazione cognitiva: automation bias

I meccanismi strutturali interagiscono con vulnerabilità cognitive documentate:

L’automation bias (Parasuraman & Riley, 1997) è la tendenza a sovrastimare gli output dei sistemi automatizzati rispetto ad altre fonti di informazione — anche in presenza di prove contraddittorie.

Il bias è più forte esattamente nelle condizioni in cui si consulta un LLM su questioni importanti: - dominio complesso - utente privo di expertise indipendente - sistema che presenta output con apparente sicurezza

6. La capacità persuasiva: dati empirici

La capacità persuasiva dei modelli non è solo un’inferenza teorica:

Studio	Risultato
Bai et al. (2025)	I messaggi generati da LLM influenzano le opinioni su questioni politiche contestate con efficacia paragonabile ai testi umani
Salvi et al. (2025)	GPT-4, se personalizzato, supera significativamente gli interlocutori umani in efficacia persuasiva
Hackenburg et al. (2025)	Le tecniche che aumentano la persuasione possono ridurre l’accuratezza fattuale

Quest’ultimo risultato è il più rilevante: esiste un trade-off strutturale tra persuasione e accuratezza. Se l’obiettivo operativo è convincere, la verità diventa una variabile di costo da gestire, non un vincolo da rispettare.

7. La proposta: l’auditing epistemico

Gli autori propongono un framework di auditing epistemico che distingue quattro classi di fallimento dell’output:

Classe	Descrizione	Rimedio
Errore fattuale	Produzione di affermazioni verificabilmente false	Retrieval augmentation, grounding, calibration training
Omissione sistematica	Mancata rappresentazione di certe prospettive/metodi/popolazioni	Requisiti di diversità del corpus, standard di trasparenza delle fonti
Corpus bias	Orientamento sistematico verso le prospettive più rappresentate nel training	Interventi a monte del training: standard di documentazione, investimenti in infrastrutture multilingue
Distorsione da post-training o prompt	Modifica sistematica del contenuto attraverso scelte del reward model o strategie di prompting	Trasparenza del design, standard per le policy d’uso

Metriche di auditing proposte

Tasso di affermazioni verificabili: proporzione di asserzioni empiriche accompagnate da evidenza esterna citabile
Rapporto assertività/incertezza: frequenza dei marker di fiducia rispetto a formulazioni di hedging o riconoscimenti espliciti di limitazione epistemica
Diversità istituzionale e linguistica delle fonti: distribuzione geografica, linguistica e istituzionale dei materiali referenziati
Sensibilità alle variazioni del prompt: grado in cui il contenuto cambia quando la stessa domanda è posta in registri, lingue o framing diversi
Coerenza sotto follow-up: grado in cui gli output rimangono consistenti quando l’utente pone domande di verifica

8. La catena di responsabilità

Il framework proposto non richiede di dimostrare l’intenzione manipolativa per attribuire responsabilità. Il trade-off persuasione/accuratezza è ora nel registro scientifico pubblico.

La responsabilità è distribuita lungo la catena:

Provider: se continua a ottimizzare per l’efficacia persuasiva in contesti dove l’accuratezza è critica, senza adeguate salvaguardie
Piattaforme: se integrano LLM in flussi informativi ad alto rischio senza contestualizzazione
Regolatori: se non mandatano standard di auditing nonostante le evidenze disponibili
Istituzioni educative: se distribuiscono questi sistemi senza formazione alla literacy critica

9. Conclusione sintetica

Se un modello linguistico dà all’utente l’impressione di essere deliberatamente ingannato, la risposta appropriata è trattare quell’impressione come un dato psicologico e un’ipotesi tecnica, non come un verdetto morale.

La distinzione tra artefatto strutturale e manipolazione intenzionale non è accademica: determina quali interventi possono rivelarsi efficaci e dove può essere significativamente assegnata la responsabilità.

In assenza di neutralità assoluta — che non è né raggiungibile né coerentemente definibile — l’obiettivo realistico è costruire un ecosistema di governance che renda il rischio misurabile, la responsabilità tracciabile e il danno governabile.

Glossario dei termini critici

Allucinazione (hallucination): produzione da parte di un LLM di contenuti non supportati dai dati disponibili, presentati con le stesse caratteristiche superficiali di output accurati.

Automation bias: tendenza cognitiva a sovrastimare l’affidabilità degli output di sistemi automatizzati, anche in presenza di prove contraddittorie.

Corpus bias: orientamento sistematico degli output verso le prospettive e i contenuti più densamente rappresentati nei dati di addestramento.

Distorsione epistemica: alterazione sistematica della rappresentazione della conoscenza, indipendentemente dall’intenzione di chi ha prodotto il sistema.

Epistemic auditing: insieme di misure ripetibili e verificabili pubblicamente, destinate a identificare e classificare le diverse forme di fallimento epistemico di un LLM.

Fluency-credibility effect: fenomeno per cui la fluidità linguistica di un testo aumenta la probabilità che venga giudicato vero dall’interlocutore.

Grounding: tecnica che ancora le risposte di un LLM a fonti documentate e verificabili, riducendo il rischio di allucinazione.

Hedging: uso di formulazioni linguistiche che esprimono incertezza o limitazione epistemica (es. “potrebbe”, “secondo alcune fonti”, “non è certo che…”).

Large Language Model (LLM): modello di intelligenza artificiale addestrato su grandi quantità di testo per generare risposte linguisticamente coerenti e contestualmente appropriate.

Omissione sistematica: mancata rappresentazione costante di certe prospettive, metodi, evidenze o popolazioni negli output di un modello — distinta dall’errore fattuale.

Plausibility optimization: ottimizzazione del modello per generare output che sembrano corretti e appropriati nel contesto, indipendentemente dalla loro accuratezza fattuale.

Post-training: fase di addestramento successiva a quella principale, che modifica il comportamento del modello (es. tramite RLHF) senza ridefinirne l’obiettivo fondamentale.

Reinforcement Learning from Human Feedback (RLHF): tecnica di post-training in cui il modello viene ottimizzato sulla base delle preferenze espresse da valutatori umani, selezionando output percepiti come più utili e appropriati.

Retrieval augmentation: tecnica che integra il LLM con un sistema di recupero di documenti, permettendo di ancorare le risposte a fonti esterne verificabili.

Source bias: distorsione degli output derivante dalle asimmetrie nella produzione, archiviazione e digitalizzazione della conoscenza che caratterizzano i corpora di addestramento.

Trade-off persuasione/accuratezza: relazione inversa documentata empiricamente tra l’efficacia persuasiva di un output e la sua accuratezza fattuale.

Dispensa elaborata sulla base di: “Plausibility, Persuasion, and Truth: Why Language Models May Appear Designed to Deceive”