Intelligenza artificiale: guida antifuffa agli LLM

Mi ero illuso che dopo il primo giro di ubriacatura per ChatGPT fosse più chiaro cosa siano gli LLM e come non sprecare troppo tempo, attenzione, risorse, spazi, soprattutto nella produzione dei contenuti. Ma poi è arrivato DeepSeek e abbiamo ricominciato da capo, come in un eterno gioco dell’oca.

Qui un rapido riepilogo (se mi viene in mente altro aggiungo e se mi suggerite ancora meglio):

📌 sì, gli LLM possono “inventare” le risposte
📌 ha poco senso proporre conclusioni definitive rispetto a un nuovo modello, fare affermazioni tipo “questo cambia tutto” o altre cose apodittiche
📌 non ha molto senso chiedere a un LLM “Chi sono io”. Se questa informazione c’è nei suoi dati di addestramento, probabilmente risponderà abbastanza correttamente. Se no, inventerà. Se può andare sul web e glie lo chiedi magari prenderà informazioni da lì. In ogni caso, se non sa chi sei tu non vuol dire che non funzioni
📌 non ha molto senso chiedere a un LLM di fare citazioni letterali, a meno che non si sia fatto un fine-tuning su testi specifici e un po’ di lavoro sul tema. Tendenzialmente, inventerà le citazioni letterali
📌 ogni LLM ha le sue regole imposte da chi li ha programmati e i suoi guardrail. Faccio esempi sparsi: i limiti sono molti altri Gemini non risponde a domande di politica, Claude 2.1 non dice parolacce manco sotto tortura, DeepSeek non parla di Piazza Tienanmen, ChatGPT fa mooooolta fatica a perorare la causa dei palestinesi e via dicendo
📌 ogni LLM ha punti di forza e di debolezza. Tipo: sì, abbiamo capito che – le versioni precedenti di – ChatGPT non sa contare quante r ci sono nella parola strawberry. In generale, se vedi errori di questo genere, semplicemente sono legati al funzionamento del modello e poi si correggono
📌 i “guardrail” dei LLM si possono superare (o provare a superare): con strategie metatestuali, usando i numeri al posto delle lettere, con tecniche di PNL, bla la. Ci sono interi progetti dedicati a questo (come il Redarena)
📌 le performance di un modello non si misurano in base a come ha risposto una volta a me o a te. È complicato. Ci sono progetti come Lmarena che aiutano a vedere come va in generale (pure lì si può barare un po’, ovviamente)
📌 le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.