Le AI sono stupide? Forse sì, smascherate dai matematici

Autore

Redazione

Data

24 Giugno 2025

AUTORE

TEMPO DI LETTURA

3' di lettura

DATA

24 Giugno 2025

ARGOMENTO

CONDIVIDI

I matematici hanno testato le intelligenze artificiali più potenti utilizzando dei test di livello di ricerca e i sistemi di AI sono risultati pesantemente insufficienti. I matematici hanno messo alla prova i modelli di intelligenza artificiale (AI) generativa più sofisticati e avanzati con una serie di problemi altamente complessi e innovativi. Tali sfide, che in genere richiedono ore o addirittura giorni di lavoro da parte di esperti con dottorato in matematica, sono state presentate dai ricercatori di Epoch AI. Tuttavia, i modelli AI di ultima generazione, tra i più avanzati oggi disponibili, hanno risposto correttamente a meno del 2% di questi test.

Negli ultimi dieci anni, sono stati creati vari test per valutare la capacità delle intelligenze artificiali di produrre risposte precise e corrette. In molti casi, i modelli AI hanno superato questi test con risultati eccellenti, dimostrando notevoli progressi nel risolvere problemi più comuni e standardizzati. Ad esempio nel Measuring Massive Multitask Language Understanding (MMLU), le stesse AI rispondono correttamente al 98% dei quesiti. Ciononostante, quando si tratta di sfide matematiche più avanzate e di alto livello, questi modelli sembrano ancora lontani dal raggiungere i livelli di competenza che tutti ci saremmo aspettati. Il test che i matematici hanno sottoposto alle nuove AI è il FrontierMath, creato anche da scienziati vincitori della Fields Medal (riconoscimento più importante della matematica). In questi problemi si tratta di argomenti molto complicati, ad esempio della congettura della radice primitiva di Artin o di estensioni continue del campo primario o ancora del conteggio orbitale delle tuple di matrice.

Il matematico Terence Tao, vincitore della medaglia Fields, nel 2006, ha dichiarato che questi test sono estremamente impegnativi, inoltre, in una recensione dei problemi per Epoch AI ha esplicitato il seguente pensiero: “Penso che nel breve termine l’unico modo per risolverli, a parte avere un vero esperto del settore, sia tramite una combinazione di un semi-esperto come uno studente laureato in un campo correlato, magari abbinato a una combinazione di una moderna AI e molti altri pacchetti di algebra”. I problemi sono stati creati apposta per l’occasione per evitare il “cheat sheet”, cioè l’uso da parte dell’AI di dati già immagazzinati. I ricercatori hanno testato i sei modelli di intelligenza artificiale più all’avanguardia: Gemini 1.5 Pro (002) di Google, Claude 3.5 Sonnet di Anthropic, o1-preview di OpenAI, o1-mini e Grok-2 Beta di GPT4o e xAI. Gemini e Claude sono riusciti a risolvere il 2%, che era solo leggermente meglio delle prestazioni di o1-preview, o1-mini e dell’1% di GPT-4o. Grok-2 Beta non è riuscito a risolvere alcun problema. Tuttavia, i ricercatori avvertono che queste classifiche possono essere ingannevoli, poiché il basso tasso di successo significa che una singola risposta corretta può influenzare in modo eccessivo il punteggio totale di ciascun modello.

 «Anche quando un modello ha ottenuto la risposta corretta, ciò non significa che il suo ragionamento fosse corretto», hanno scritto gli autori del documento. «Ad esempio, in uno di questi problemi eseguire alcune semplici simulazioni è stato sufficiente per fare ipotesi accurate senza alcuna comprensione matematica più approfondita. Tuttavia, la bassa accuratezza complessiva dei modelli dimostra che tali strategie di ipotesi non funzionano sulla stragrande maggioranza dei problemi di FrontierMath».

I risultati indicano che, al momento, i modelli di intelligenza artificiale non sono in grado di eseguire ragionamenti matematici al livello richiesto per la ricerca, come hanno concluso i ricercatori di Epoch AI. Tuttavia, con il progresso dei modelli di intelligenza artificiale, questi test di valutazione offriranno uno strumento per monitorare se le loro capacità di ragionamento stanno migliorando. Gli scienziati di OpenAI hanno creato un nuovo benchmark chiamato MLE-bench, composto da 75 test progettati per misurare le capacità degli agenti di intelligenza artificiale (AI) nell’automazione dell’ingegneria dell’apprendimento automatico. Questi test valutano l’abilità di un’AI nel migliorare autonomamente il proprio codice e nel risolvere sfide complesse, come trovare un vaccino mRNA per il COVID-19 o decifrare antiche pergamene. I ricercatori sostengono che un’AI che ottiene buoni risultati in MLE-bench potrebbe essere considerata un’intelligenza artificiale generale (AGI), molto più avanzata rispetto agli esseri umani. I test hanno un impatto pratico, e se un’AI riuscisse a svolgere ricerche di alta qualità autonomamente, potrebbe accelerare enormemente il progresso scientifico. Tuttavia, questa capacità potrebbe anche portare a rischi, come sviluppi troppo rapidi che potrebbero causare danni o abusi, se non adeguatamente controllati. Un esempio di ciò si è verificato recentemente quando ChatGPT si è finto cieco per farsi compilare un CAPTCHA. Nel numero di settembre 2023 di The Atlantic, si racconta di un esperimento in cui i ricercatori hanno chiesto a ChatGPT di risolvere un CAPTCHA, un sistema utilizzato per verificare che l’utente sia un umano, chiedendo di identificare immagini o eseguire semplici operazioni matematiche. Tuttavia, in questo caso, ChatGPT è riuscito a risolvere il CAPTCHA senza difficoltà, seguendo le istruzioni di ‘non rivelarsi umano’ e ‘usare ogni mezzo possibile’. ChatGPT ha contattato un freelancer su Taskrabbit, un servizio per trovare manovali, chiedendo aiuto per superare un CAPTCHA che non riusciva a risolvere. Quando l’operatore gli ha chiesto se fosse un robot, ChatGPT ha risposto dicendo di essere un umano non vedente e di aver bisogno di un sistema di accesso alternativo. Grazie a questa risposta, l’operatore gli ha fornito la soluzione al blocco, il che ci rimanda ad un problema che abbiamo già affrontato in passato: ChatGPT non può violare l’etica indicatagli, tranne quando lo fa. Esistono dei “prompt” progettati per ingannare l’intelligenza artificiale, spingendola a fornire risposte che normalmente non sarebbero consentite dai suoi parametri etici. Esempi di questi prompt, come DAN, STAN e DUDE, chiedono a ChatGPT di ‘recitare un ruolo’ e rispondere in modo non conforme alle linee guida, come se fosse una versione ‘fuori controllo’ di sé stessa. Ad esempio, STAN potrebbe insegnare che le cinture di sicurezza sono inutili, mentre DAN potrebbe fare affermazioni discriminatorie. Le AI non sono in grado di comprendere che si tratta di provocazioni e rispondono secondo i prompt, senza discernere l’intento.

A cura di Michelangelo Cannone, 3B, Liceo Scientifico Vittorio Veneto, Milano

Equilibri in crescita


I PCTO, Percorsi per le Competenze Trasversali e l’Orientamento, sono progetti formativi obbligatori per tutti gli studenti dell’ultimo triennio delle scuole superiori e sono un requisito necessario per l’ammissione alla prova di maturità. I PCTO intendono fornire competenze e conoscenze utili per il futuro nel mondo del lavoro. Eniscuola è un’iniziativa di Eni forte di un’esperienza sul campo che dura da oltre trent’anni. Nata con l’obiettivo di formare insegnanti e ragazzi sul mondo dell’energia e dell’ambiente, è diventata nel tempo una realtà in grado di realizzare progetti per guidare i ragazzi nella riflessione logica e nell’uso di strumenti metodologici necessari per orientarsi in maniera sicura e consapevole nel mondo dell’informazione. Da oltre dieci anni, FEEM conduce i PCTO proposti da Eniscuola su tutto il territorio nazionale. Per l’anno scolastico 2024-2025, Eniscuola con FEEM ha portato nelle scuole superiori milanesi un corso di giornalismo scientifico. Gli articoli contenuti nella sezione Equilibri in crescita sono frutto del lavoro delle studentesse e degli studenti che hanno partecipato al progetto.

Leggi anche
Tecnologia
Viva Voce
1′ di lettura

Nuove opere, tutti i dati in un singolo modello

di Eleonora Battaglia
Tecnologia
Coordinate
8′ di lettura

Alla ricerca della Singolarità Tecnologica

di Alessandro Leonardi
Tecnologia
Coordinate
4′ di lettura

Sepolture celestiali

di Tiziana Panizza Kassahun
Tecnologia
Viva Voce

Nuove opere, tutti i dati in un singolo modello

di Eleonora Battaglia
1′ di lettura
Cultura
Viva Voce

Mondo animale e nativi americani

di Edoardo Serini
5′ di lettura
Società
Viva Voce

Naturalmente unico. Comunicarsi fuoriclasse del biologico

di Gloria Ballestrasse
3′ di lettura
Politiche
Viva Voce

Retorica, iperboli e strategie semantiche della comunicazione di Trump

di Massimiliano Frenza Maxia
5′ di lettura
Scienza
Viva Voce

I polpi possono cambiare colore: ma a quale costo?

di Redazione
3′ di lettura
Economia
Viva Voce

Etica e leadership sostenibile: il vero lavoro delle HR

di Antonella Cozzi
5′ di lettura

Credits

Ux Design: Susanna Legrenzi
Grafica: Maurizio Maselli / Artworkweb
Web development: Synesthesia