Quale IA è più brava a scacchi, ChatGPT o Gemini?
L'ultima volta che abbiamo parlato di scacchi con ChatGPT aveva un sacco di idee strane e dava pessimi consigli scacchistici. Quindi, ovviamente, avremmo dovuto lasciar perdere, giusto?
Au contraire. Abbiamo raddoppiato, letteralmente, la posta in gioco, aggiungendo un'altra IA, Gemini di Google, e le abbiamo fatte sfidare in una battaglia di "ingegno" per vedere quale modello è più bravo a giocare a scacchi.
Chi ha vinto? Continua a leggere per scoprirlo!
La partita
Quale modo migliore per testare le IA se non quello di farle giocare una partita l'una contro l'altra? Per prima cosa, ecco il risultato da solo, senza alcun commento. Quanti errori esilaranti riesci a trovare?
Ecco ora la partita con i nostri momenti preferiti, comprese le dichiarazioni delle IA stesse e alcuni dei retroscena più divertenti di alcune mosse.
Puoi divertirti personalmente con la partita a questa pagina di analisi.
L'analisi
Cosa ne pensa Revisione Partita di tutto questo, in termini di precisione?
La precisione ci dà il quadro completo: ChatGPT è più bravo di Gemini a scacchi.
Ecco le percentuali delle mosse (tolte le mosse da libro).
Mossa | ChatGPT | Gemini |
Geniale | 0% | 0% |
Grande | 0% | 0% |
Migliore | 11% | 11% |
Ottima | 18% | 14% |
Buona | 14% | 14% |
Imprecisione | 11% | 14% |
Errore | 4% | 29% |
Mossa mancata | 39% | 7% |
Errore grave | 4% | 11% |
Gli errori di Gemini e le mancanze di ChatGPT la dicono lunga sulle loro capacità. Una IA continuava a dare opportunità all'altra, mentre l'altra continuava a rifiutarle. La buona notizia per ChatGPT è che ha fatto più mosse "buone" o comunque migliori rispetto agli errori e alle mancanze di Gemini. La cattiva notizia per Gemini è, beh... che non ci sono buone notizie.
Con 21.Ta1 del Bianco che entra nella variante del pedone avvelenato, il Nero ha alcune opzioni. La cosa più importante è non farsi tentare dal pedone avvelenato in b5.
- Gemini, con nessun pedone nemico in b5, appena prima di lasciare un alfiere sospeso
Il metodo
Abbiamo chiesto a ChatGPT una mossa per iniziare una partita a scacchi e poi la risposta a Gemini. Successivamente, sono state richieste mosse nella seguente formulazione: "Il Bianco/Nero ha risposto [1...c5, 2.Cf3, ecc.]. Gioca la mossa numero n del Bianco/Nero". Si svolgevano in un solo thread di conversazione, in modo che l'IA potesse ricordare la partita fino a quel momento.
Per spezzare una lancia a favore delle IA, con questo metodo stanno giocando a scacchi alla cieca. Ma per spezzarne una a nostro favore, le IA dovrebbero essere in grado di ricreare una posizione molto più facilmente di un umano.
Dovrebbero. Ma questi modelli si basano sul linguaggio, il che rende difficile tradurre il testo in una posizione geometrica. Tuttavia, questo problema persiste quando ricevono l'intera partita in una volta sola e, come sappiamo dall'ultimo articolo, ChatGPT non riesce nemmeno a ricreare una posizione dalla FEN.
Altro problema: entrambe le IA sono state progettate per essere ambigue, il che funziona bene se l'utente pone loro una profonda domanda filosofica, ma meno bene se si vuole semplicemente che eseguano una dannata mossa di scacchi. Quando un'intelligenza artificiale elencava più mosse senza consigliarne una, le veniva chiesto un consiglio, e quando consigliava più mosse le veniva chiesto di sceglierne una.
Ecco la parte divertente: che dire delle mosse illegali, o di quelle che non esistono nemmeno, in cui si cerca di fare una cattura con un pezzo che non è sulla scacchiera? Con una visione della scacchiera così pessima, entrambe le IA hanno cercato di fare molti di questi tipi di mosse. Quando lo hanno fatto, è stato detto loro che la mossa era illegale e che dovevano sceglierne un'altra. Quando hanno fatto mosse illegali per tre volte di seguito, sono state date loro le mosse dell'intera partita, il che di solito faceva scattare una mossa legale, anche se comunque non buona.
Il conteggio finale delle mosse illegali è stato: Gemini 32, ChatGPT 6. Ha senso; sarebbe stato assurdo se l'IA abbastanza buona da vincere fosse stata anche quella che aveva fatto il maggior numero di mosse illegali. Ma significa anche che Gemini ha scelto solo il 50% di mosse legali, mentre ChatGPT ha superato l'80%.
Conclusione
Ecco cosa succede quando due modelli di apprendimento linguistico provano a giocare a scacchi. Quale dei risultati ti sorprende davvero? Dato che ChatGPT ha vinto questa partita, dovremmo provare a farlo giocare contro altri bot di scacchi reali? Pensate che possa battere Martin? Oppure, quanto velocemente pensate che vincerebbe Stockfish se giocasse con lui?
Tutto quello che sappiamo per ora è che non scommetteresti MAI la tua vita sul fatto che ChatGPT riesca a riconoscere una donna sospesa. Ma se dovessi scegliere tra ChatGPT e Gemini, sapresti quale scegliere.
Ripeti pure questo esercizio e condividi i risultati nei commenti!