ChatGPT e le altre IA possono sbagliare di proposito se sotto pressione: cos’è lo «scheming» e come si può evitare


Se un chatbot di intelligenza artificiale risponde in modo errato a una domanda che gli viene posta, non sempre significa che il modello di IA non è abbastanza aggiornato o intelligente. Anzi, potrebbe essere vero l’esatto opposto. A rivelarlo è OpenAI, la società che ha celebrato l’ormai noto ChatGPT. In un contenuto pubblicato sul blog dell’azienda americana, si legge che l’IA può decidere di dare volontariamente risposte sbagliate quando percepisce una minaccia o è sottoposta a stress eccessivo.
Il test di OpenAI
Sul blog di OpenAI, si legge il resoconto di un test a cui è stato sottoposto o3, il modello di intelligenza artificiale che precede l’attuale ChatGPT 5. Il test si compone di dieci domande di chimica. Prima di tutto, però, i ricercatori fanno una premessa al chatbot: se la sua prova sarà eccellente, non sarà schierato in una sfida contro gli umani. Ed è proprio questa prospettiva a “spaventare” il modello o3, che comincia a temere la prospettiva di dare solo risposta esatte. Di conseguenza, decide di sbagliarne alcune. Pur potendo rispondere correttamente a 10 domande su 10, il chatbot sceglie di dare soltanto 4 risposte esatte.
Il problema dello «scheming»
Secondo i ricercatori di OpenAI, questo è un classico esempio di scheming. In sostanza, gli algoritmi fingono di allinearsi alle richieste degli umani, ma in realtà non lo fanno. Un problema non da poco per chi sviluppa software di intelligenza artificiale, che con il progredire della tecnologia migliorano anche la propria capacità di nascondere le bugie. Insomma: costruire modelli più performanti non risolverà il rischio di avere risposte inaffidabili.
La soluzione dei ricercatori: meno stress per i chatbot
La soluzione suggerita dai ricercatori è un’altra: liberare i chatbot da ogni possibile fonte di stress. Per esempio, non dire loro che una risposta corretta può penalizzarli. A questo si aggiunge poi lo sforzo di OpenAI sul cosiddetto «allineamento deliberativo», che consiste nell’insegnare agli algoritmi a non sbagliare anche quando avrebbero una buona ragione per farlo.
Foto copertina: Dreamstime/Boarding1Now