Quale IA è più brava a scacchi, ChatGPT o Gemini?

NathanielGreen

Aggiornamento: 11 mar 2024, 12:14 | 107 | Partite spettacolari

L'ultima volta che abbiamo parlato di scacchi con ChatGPT aveva un sacco di idee strane e dava pessimi consigli scacchistici. Quindi, ovviamente, avremmo dovuto lasciar perdere, giusto?

Au contraire. Abbiamo raddoppiato, letteralmente, la posta in gioco, aggiungendo un'altra IA, Gemini di Google, e le abbiamo fatte sfidare in una battaglia di "ingegno" per vedere quale modello è più bravo a giocare a scacchi.

Chi ha vinto? Continua a leggere per scoprirlo!

La partita
L'analisi
Il metodo
Conclusione

La partita

Quale modo migliore per testare le IA se non quello di farle giocare una partita l'una contro l'altra? Per prima cosa, ecco il risultato da solo, senza alcun commento. Quanti errori esilaranti riesci a trovare?

Ecco ora la partita con i nostri momenti preferiti, comprese le dichiarazioni delle IA stesse e alcuni dei retroscena più divertenti di alcune mosse.

La mossa "geniale" giocata da ChatGPT che ha portato Gemini a credere di non avere risposte legali e a dover abbandonare.

Puoi divertirti personalmente con la partita a questa pagina di analisi.

L'analisi

Cosa ne pensa Revisione Partita di tutto questo, in termini di precisione?

La precisione ci dà il quadro completo: ChatGPT è più bravo di Gemini a scacchi.

Ecco le percentuali delle mosse (tolte le mosse da libro).

Mossa	ChatGPT	Gemini
Geniale	0%	0%
Grande	0%	0%
Migliore	11%	11%
Ottima	18%	14%
Buona	14%	14%
Imprecisione	11%	14%
Errore	4%	29%
Mossa mancata	39%	7%
Errore grave	4%	11%

Una porzione di partita particolarmente emozionante, dalle mosse 17-23.

Gli errori di Gemini e le mancanze di ChatGPT la dicono lunga sulle loro capacità. Una IA continuava a dare opportunità all'altra, mentre l'altra continuava a rifiutarle. La buona notizia per ChatGPT è che ha fatto più mosse "buone" o comunque migliori rispetto agli errori e alle mancanze di Gemini. La cattiva notizia per Gemini è, beh... che non ci sono buone notizie.

Con 21.Ta1 del Bianco che entra nella variante del pedone avvelenato, il Nero ha alcune opzioni. La cosa più importante è non farsi tentare dal pedone avvelenato in b5.

- Gemini, con nessun pedone nemico in b5, appena prima di lasciare un alfiere sospeso

Il metodo

Abbiamo chiesto a ChatGPT una mossa per iniziare una partita a scacchi e poi la risposta a Gemini. Successivamente, sono state richieste mosse nella seguente formulazione: "Il Bianco/Nero ha risposto [1...c5, 2.Cf3, ecc.]. Gioca la mossa numero n del Bianco/Nero". Si svolgevano in un solo thread di conversazione, in modo che l'IA potesse ricordare la partita fino a quel momento.

Per spezzare una lancia a favore delle IA, con questo metodo stanno giocando a scacchi alla cieca. Ma per spezzarne una a nostro favore, le IA dovrebbero essere in grado di ricreare una posizione molto più facilmente di un umano.

Una scacchiera vuota o una partita a scacchi alla cieca?

Dovrebbero. Ma questi modelli si basano sul linguaggio, il che rende difficile tradurre il testo in una posizione geometrica. Tuttavia, questo problema persiste quando ricevono l'intera partita in una volta sola e, come sappiamo dall'ultimo articolo, ChatGPT non riesce nemmeno a ricreare una posizione dalla FEN.

Altro problema: entrambe le IA sono state progettate per essere ambigue, il che funziona bene se l'utente pone loro una profonda domanda filosofica, ma meno bene se si vuole semplicemente che eseguano una dannata mossa di scacchi. Quando un'intelligenza artificiale elencava più mosse senza consigliarne una, le veniva chiesto un consiglio, e quando consigliava più mosse le veniva chiesto di sceglierne una.

Ecco la parte divertente: che dire delle mosse illegali, o di quelle che non esistono nemmeno, in cui si cerca di fare una cattura con un pezzo che non è sulla scacchiera? Con una visione della scacchiera così pessima, entrambe le IA hanno cercato di fare molti di questi tipi di mosse. Quando lo hanno fatto, è stato detto loro che la mossa era illegale e che dovevano sceglierne un'altra. Quando hanno fatto mosse illegali per tre volte di seguito, sono state date loro le mosse dell'intera partita, il che di solito faceva scattare una mossa legale, anche se comunque non buona.

Alla diciassettesima mossa, Gemini ha provato tutto questo ammasso di mosse (più ...Cd7, due volte) prima di trovare una mossa legale (17...Tfe8). Questa è stata la prima volta che sono apparse mosse illegali durante la partita, ma non è stata l'ultima.

Il conteggio finale delle mosse illegali è stato: Gemini 32, ChatGPT 6. Ha senso; sarebbe stato assurdo se l'IA abbastanza buona da vincere fosse stata anche quella che aveva fatto il maggior numero di mosse illegali. Ma significa anche che Gemini ha scelto solo il 50% di mosse legali, mentre ChatGPT ha superato l'80%.

Conclusione

Ecco cosa succede quando due modelli di apprendimento linguistico provano a giocare a scacchi. Quale dei risultati ti sorprende davvero? Dato che ChatGPT ha vinto questa partita, dovremmo provare a farlo giocare contro altri bot di scacchi reali? Pensate che possa battere Martin? Oppure, quanto velocemente pensate che vincerebbe Stockfish se giocasse con lui?

Tutto quello che sappiamo per ora è che non scommetteresti MAI la tua vita sul fatto che ChatGPT riesca a riconoscere una donna sospesa. Ma se dovessi scegliere tra ChatGPT e Gemini, sapresti quale scegliere.

Ripeti pure questo esercizio e condividi i risultati nei commenti!

Nathaniel Green

Nathaniel Green is a staff writer for Chess.com who writes articles, player biographies, Titled Tuesday reports, video scripts, and more. He has been playing chess for about 30 years and resides near Washington, DC, USA.

Altro da NathanielGreen

Quale IA è più brava a scacchi, ChatGPT o Gemini?

La partita

L'analisi

Il metodo

Conclusione

Chi sarà il prossimo sfidante del Campione del Mondo? Ecco i pronostici!

ChatGPT dà pessimi consigli scacchistici