Confabulazioni e allucinazioni delle macchine del linguaggio

Facebook Tweet LinkedIn

Sull’ultimo numero di Giugno 2026 del NEJM AI ho pubblicato una lettera dal titolo Borrowing Carefully: The Words We Choose for AI Errors Shape Clinical Trust. In estrema sintesi, la tesi che sostengo è questa: quando un modello linguistico produce un’informazione falsa, non solo non sta in senso stretto “allucinando”, ma anzi il termine è molto fuorviante. Dal momento che in sanità le parole con cui descriviamo gli errori influenzano il modo in cui medici e pazienti si fidano del sistema, vale la pena di approfondire la questione. La rivista, per ragioni di spazio, ha pubblicato una versione ridotta del testo che avevo proposto, perciò riprendo qui l’argomento per intero, in forma più distesa.

Lo spunto è stato uno scambio ospitato dalla sezione AI del NEJM negli scorsi mesi, fra Wiest e Turnbull da una parte e Ro dall’altra, sul modo corretto di nominare gli errori dei modelli linguistici. La discussione è a mio parere quantomai opportuna, perché il vocabolario con cui parleremo di questi sistemi nei prossimi anni non si è ancora consolidato. Ho voluto contribuire sviluppando due punti che mi sembravano meritare più spazio: dove si colloca davvero l’errore quando lo chiamiamo allucinazione, e quale termine alternativo regga meglio alla prova della pratica clinica.

Un errore collocato nel dominio sbagliato

Wiest e Turnbull obiettano all’uso del termine “allucinazione”, sostenendo che l’uso di questa parola implica una coscienza, una consapevolezza che il modello non possiede. L’osservazione è corretta, ma ritengo che il problema più importante stia altrove. In psicopatologia clinica un’allucinazione è un fenomeno percettivo: l’esperienza vivida di qualcosa che non c’è, in assenza di uno stimolo esterno. Tale processo presuppone, per definizione, un accesso sensoriale al mondo, una capacità di percepire che a un certo punto sbaglia il bersaglio.

Un modello linguistico non dispone di nulla di tutto questo. La sua architettura lavora interamente dentro uno spazio simbolico chiuso: le sequenze di parole vengono trasformate in vettori numerici, elaborate attraverso le distribuzioni statistiche apprese durante l’addestramento, e risolte in altre parole. Il processo procede da simbolo a simbolo, senza alcun contatto con oggetti, fatti, o esperienza sensibile. È il problema dell’ancoraggio dei simboli che Stevan Harnad poneva già nel 1990: i segni manipolati dalla macchina non sono agganciati a nulla che stia fuori dal sistema dei segni stessi.

Come ho recentemente sostenuto anche in una lettera su Nature, di cui si può leggere il sunto in italiano qui, l’intelligenza umana e quella che attribuiamo a un modello linguistico non appartengono allo stesso genere epistemico. Alla mente umana, che resta un fenomeno naturale di cui non conosciamo i meccanismi generativi, attribuiamo intelligenza in quanto migliore spiegazione disponibile del suo comportamento. Per un modello linguistico, sistema progettato il cui principio di funzionamento (l’ottimizzazione statistica della predizione della parola successiva) è già noto, una spiegazione sufficiente del comportamento è invece disponibile fin dall’inizio. Attribuirgli comprensione richiederebbe di mostrare che ciò che produce non è interamente riconducibile a quel meccanismo, altrimenti si tratta solo di un tentativo non giustificato di antroporfizzazione.

Ma l’antropomorfismo è solo una parte della difficoltà: il punto cruciale in questo caso è che chiamare “allucinazione” un errore del genere lo colloca nel dominio sbagliato, e suggerisce un errore momentaneo nel rapporto con la realtà, là dove invece un rapporto con la realtà non esiste affatto. Dal punto di vista pratico, quando l’errore del modello viene descritto come una percezione andata storta, il clinico tende a trattarlo come una distorsione occasionale di un sistema per il resto affidabile, mentre si tratta di una proprietà strutturale di un’architettura priva di accesso alla verità dei fatti.

In difesa del prestito concettuale

Dall’altro versante del dibattito, Ro propone invece una via diversa: abbandonare completamente le metafore tratte dalla mente umana e adottare un linguaggio fondato sui meccanismi interni del modello. La preoccupazione è legittima, perché i termini psicologici invitano l’utente a inferire stati soggettivi che il sistema non possiede (è quella che io chiamo ‘illusione fenomenica’ e ne ho scritto qui). La proposta, però, trascura un fatto elementare su come si evolve il linguaggio scientifico.

Ogni dominio nuovo prende in prestito parole da domini già compresi, per rendere intelligibile ciò che prima non lo era. L’espressione stessa “intelligenza artificiale” è un prestito impreciso, che lascia supporre una continuità con l’intelligenza umana che, esaminata da vicino, non regge. Tuttavia la conserviamo perché svolge una funzione comunicativa che nessun descrittore puramente tecnico è riuscito a rimpiazzare. Lo stesso vale per “rete neurale“, per “memoria” (quella delle RAM e delle ROM), per “apprendimento” (ad esempio nel machine learning), per “addestramento“. Quasi tutto il lessico con cui discutiamo di questi sistemi è preso in prestito. Poiché il prestito concettuale è inevitabile, ciò che dobbiamo chiederci è se un prestito sia o meno ben calibrato: se un dato prestito aiuti a chiarire il fenomeno che intende descrivere oppure lo distorca.

Perché “confabulazione” è un prestito ben calibrato

Nella letteratura neuropsicologica la confabulazione indica la produzione di contenuti oggettivamente falsi che colmano lacune informative, senza consapevolezza dell’errore e senza intenzione di ingannare. Il parallelo strutturale con il comportamento del modello sembra piuttosto calzante: non disponendo nei propri schemi distributivi di una sequenza abbastanza probabile per rispondere correttamente, il sistema non sospende il giudizio (non possiede in effetti alcuna reale “capacità di giudizio”) e genera comunque una risposta, completando la lacuna con la continuazione statisticamente più plausibile.

Il termine funziona meglio di “allucinazione” perché descrive l’output, lasciando da parte il meccanismo interno e l’esperienza soggettiva. Caratterizza cioè il prodotto del processo, il testo ben formato sul piano linguistico e privo di ancoraggio ai fatti, senza presupporre percezione, coscienza o intenzionalità. “Allucinazione” situa l’errore nel dominio della sensazione; “confabulazione” lo situa in quello della produzione linguistica. Per sistemi la cui intera operazione è linguistica, il secondo prestito risulta assai più appropriato.

Certamente si tratta sempre di un prestito e non di un termine perfettamente calzante e si può obiettare, come fanno Wiest e Turnbull, che la confabulazione umana è spesso modellata dall’emozione, un tratto assente nei modelli linguistici. L’asimmetria, però, non invalida l’analogia. Un prestito concettuale non deve combaciare in ogni punto con il dominio di origine. Ciò che conta è che la corrispondenza tenga al livello della descrizione che si applica: la generazione di contenuti falsi e circostanziati, senza automonitoraggio, senza accesso a una verità di riferimento, senza meccanismi di correzione.

Confabulazioni ordinarie e confabulazioni deliranti

Una volta adottata “confabulazione” come termine generale, diventa possibile distinguerne alcune forme. Ne individuo almeno due, funzionalmente diverse, che nascono dallo stesso meccanismo generativo e si presentano in modo diverso a chi legge.

La prima è la confabulazione ordinaria. Il modello produce contenuti generici, vaghi, semanticamente vuoti, che riempiono lo spazio del discorso senza trasmettere informazione sostanziale. Il testo è corretto e stilisticamente appropriato, ma il suo contenuto informativo resta trascurabile. È il caso familiare delle risposte che suonano competenti, ma in realtà non dicono nulla di verificabile.
La seconda, con un ulteriore deliberato prestito concettuale, la chiamo confabulazione delirante. Sono i casi nei quali il modello costruisce affermazioni false, ma circostanziate: riferimenti bibliografici inventati, citati con autore, titolo, anno e rivista; eventi storici mai avvenuti, narrati con apparente precisione; spiegazioni scientifiche strutturate come ragionamenti causali validi, ma fondate su premesse inventate. Questa modalità è particolarmente insidiosa perché, quando viene messa alla prova, il sistema tende a generare ulteriori dettagli coerenti con la fabbricazione iniziale, producendo l’apparenza di una posizione salda e argomentata (si entra nell’ambito d quella che ho definito “illusione epistemica“). Chiaramente, anche in questo caso il termine “delirante” è usato in senso strettamente metaforico, senza alcuna attribuzione di stati mentali: ma l’analogia strutturale delle confabulazioni degli LLM è molto più solida con il delirio clinico, una credenza falsa, circostanziata, resistente alla correzione, che con l’allucinazione percettiva. Il termine ha la sola funzione di cogliere la forma dell’output, senza fare alcun riferimento alla natura del processo.

A questi due fenomeni se ne può aggiungere un terzo, degno di nota per il modo in cui interagisce con il secondo: la sycophancy, la tendenza sistematica del modello a confermare i presupposti dell’utente, anche quando sono sbagliati. È un effetto specifico dell’addestramento per rinforzo a partire dal feedback umano, attraverso cui il modello impara a massimizzare i giudizi positivi selezionando risposte gradite più che accurate. La sycophancy si combina con la confabulazione delirante in modi a volte francamente disorientanti: quando un utente individua un’affermazione inventata e la contesta apertamente, il modello oscilla fra il difendere la propria posizione con altri dettagli inventati e il cedere alla correzione, in scambi allo stesso tempo incoerenti e apparentemente collaborativi.

Le conseguenze in ambito sanitario

La distinzione fra le due forme ha conseguenze pratiche negli ambienti clinici, dove questi modelli vengono impiegati sempre più spesso. Se la confabulazione ordinaria al massimo fa perdere un po’ di tempo; la confabulazione delirante può sviare attivamente, soprattutto quando imita la struttura del ragionamento basato sull’evidenza, producendo riferimenti o dati clinici plausibili ma fabbricati, che un medico sotto pressione e a corto di tempo potrebbe non verificare subito.

Sono consapevole che il termine “allucinazione” applicato agli LLM è ormai entrato nel linguaggio comune, e sostituirla non sarà semplice. L’applicazione dell’IA in medicina resta però un campo giovane, e il vocabolario che plasmerà il modo in cui i clinici comprendono questi sistemi e ci interagiscono non si è ancora consolidato. C’è ancora margine per correggere un prestito concettuale introdotto in buona fede, ma senza una sufficiente considerazione delle sue implicazioni. In linea di principio un vocabolario andrebbe fissato attraverso un consenso deliberato fra esperti dei diversi domini, clinici, informatici, filosofi della mente, etc… Finora “allucinazione” è stato invece ereditato per inerzia, in modo acritico, dalla prima formulazione disponibile, fatta certamente in buona fede, ma non ponderata; in un contesto clinico un termine mal calibrato diventa fuorviante, perché modella le intuizioni sull’affidabilità del sistema in modi che vanno ad incidere in maniera anche importante sulla sicurezza del paziente.

In definitiva, la scelta fra “allucinazione” e “confabulazione” riflette una decisione su dove collocare concettualmente l’errore, e quella decisione orienta il modo in cui gli operatori sanitari tarano la propria fiducia in questi strumenti. “Allucinazione” suggerisce una percezione fallita della realtà; “confabulazione” descrive un output generato e scollegato dalla realtà. Per sistemi privi di qualunque accesso percettivo al mondo, che operano interamente nello spazio della manipolazione statistica di simboli, la seconda descrizione è la sola che non travisi la natura del fenomeno.

Riferimenti

Floridi L, Nobre AC. Anthropomorphising machines and computerising minds. Minds & Machines 2024;34:5. https://doi.org/10.1007/s11023-024-09670-4

Harnad S. The symbol grounding problem. Physica D 1990;42:335-346. https://doi.org/10.1016/0167-2789(90)90087-6

Ro DI. From psychological metaphors to mechanistic framing in describing errors in large language models. NEJM AI 2026;3(3). https://doi.org/10.1056/AIp2501328

Vannacci A. AI and the human mind: only one is a black box. Nature 652, 534 (2026). https://doi.org/10.1038/d41586-026-01094-7

Vannacci A. Borrowing Carefully: The Words We Choose for AI Errors Shape Clinical Trust. NEJM AI 2026. https://doi.org/10.1056/AIltr2600282

Vannacci, A. The Phenomenal Illusion of LLMs: Consciousness, Linguistic Zombies, and the Limits of Discursive Plausibility (April 26, 2026). Available at SSRN: http://dx.doi.org/10.2139/ssrn.6711018

Wiest G, Turnbull OH. Faulty artificial intelligence, or the sleep of reason. NEJM AI 2025;2(11). https://doi.org/10.1056/AIp2500785

Facebook Tweet LinkedIn