Lettura: 2 min • IA
ChatGPT secondo Ted Chiang
Una JPG lossy
Ted Chiang è un informatico e uno scrittore di fantascienza. È noto soprattutto per due raccolte di racconti Storie della tua vita e Respiro.
Un anno fa circa (febbraio 2023), ha scritto un lungo articolo per il New Yorker, dove parlava di ChatGPT e in generale dei large language models, che mettiamo nel calderone delle intelligenze artificiali. Al tempo dell’articolo di Chiang, ChatGPT era in giro da tre mesi. Non era ancora stata rilasciata la versione Plus e perlopiù ci divertivamo a condividere screenshot delle nostre conversazioni.
Ted Chiang paragona questo tipo di IA a una JPG, una versione compressa di un’immagine ad alta risoluzione. Per rendere meglio l’idea, ci invita a immaginare di perdere l’accesso a Internet e di voler salvare tutti i contenuti web su un nostro server. Non ci sarebbe abbastanza spazio, allora dovremmo inventarci un algoritmo che comprima tutto quel testo. Non è possibile usare una compressione lossless (senza perdita di dati), dovremo optare per una lossy (con perdita di dati), come una JPG appunto. Finito l’algoritmo avremo tutte le informazioni del Web sul nostro server.
L’unico problema è che, poiché il testo è stato compresso così tanto, non puoi cercare informazioni cercando una citazione esatta; non otterrai mai una corrispondenza esatta, perché le parole non sono ciò che viene memorizzato. Per risolvere questo problema, crei un’interfaccia che accetta query sotto forma di domande e risponde con risposte che trasmettono l’essenza di ciò che hai sul tuo server.
Questa descrizione ci è ormai familiare. Chiang prova poi a spiegare ancora meglio il meccanismo, parlando delle allucinazioni che abbiamo imparato a conoscere. Le allucinazioni sono dovute proprio al sistema di compressione. Come quando un programma per le immagini ricostruisce i pixel di una foto persi durante la compressione, così ChatGPT aggiunge un testo perso tra due punti di uno «spazio lessicale». Per Chiang, l’essenza di ChatGPT è la sua compressione lossy. Se ChatGPT rispondesse fornendo le esatte parole di un articolo o di un libro ne saremmo meno impressionati. Probabilmente lo considereremmo solo un motore di ricerca migliore. Il fatto che riformuli il materiale e il contenuto che è stato compresso, crea l’illusione che comprenda il materiale.
L’incapacità di ChatGPT di produrre citazioni esatte dalle pagine Web è proprio ciò che ci fa pensare che abbia imparato qualcosa. Quando si tratta di sequenze di parole, la compressione lossy sembra più intelligente della compressione lossless.