AI benchmark: come orientarsi tra LLM e tool di GenAI

Test tecnici, preferenze degli utenti e sperimentazione diretta, meglio se corale: la triplice strada per navigare nell’ecosistema sempre più affollato dei Large Language Model.

Sapete quanti sono i Large language model (LLM) attualmente disponibili? Quelli generalisti più rilevanti, secondo un elenco presente su Wikipedia, sono circa 70. Ma se tornate a leggere queste righe tra qualche mese (o qualche settimana), il loro numero potrebbe già essere aumentato.

L’intelligenza artificiale, e nello specifico l’AI generativa, quella diventata mainstream a partire dall’esordio di ChatGPT nel novembre del 2022, ha portato con sé una rivoluzione nel modo di lavorare, produrre contenuti e output, anche fare ricerche online.

È entrata a far parte della vita quotidiana e lavorativa di milioni di persone (gli utilizzatori di ChatGPT erano 800 milioni ad aprile, secondo l’amministratore delegato di Open AI Sam Altman).

Ma ha portato anche a un’esplosione senza precedenti di nuovi modelli, tool e versioni (come l’ultimo arrivato Kimi 2, promettente LLM sviluppato dalla start up Moonshot). Al di là del possibile effetto paralizzante di questa abbondanza, c’è anche un altro tema: è difficile orientarsi tra tutta questa offerta e capire quale tool o modello utilizzare. 

A volte, chi usa l’intelligenza artificiale è portato a rispondere a questa domanda sulla base della propria esperienza  e di considerazioni magari poco “scientifiche”. Provando e riprovando, si comprende che un tool è più indicato per svolgere un’attività e un altro è invece “più bravo” a farne un’altra.

La sperimentazione, la pratica e l’utilizzo costante sono sicuramente importanti per quanto riguarda la Gen AI. D’altronde, si tratta di una “materia” difficile da apprendere e da insegnare nei modi tradizionali, come si evince anche da alcune best practice in termini di AI adoption, come ad esempio il progetto Dojo sviluppato dalla Independent design company Logotel per conto di Italgas.

C’è però anche un modo “scientifico” per capire quali modelli di AI e quali LLM sono migliori degli altri in determinati compiti, almeno sulla carta: si tratta dei benchmark.

In questo articolo spieghiamo in breve cosa sono i benchmark, quali sono i più utilizzati e quanto effettivamente servono per decidere se un LLM e di conseguenza un tool di AI generativa faccia al caso nostro oppure no.

Alcune definizioni: LLM e benchmark

Partiamo da alcune definizioni, senza darle per scontato. Cosa sono i Large language model? Secondo il professor Federico Cabitza, esperto di interazione uomo-macchina dell’Università Bicocca di Milano, per LLM si intende:

“Un modello computazionale, sviluppato con tecniche di machine learning e addestrato a partire da grandi quantità di contenuti (tipicamente, ma non solo, testuali) che costituisce il componente principale di sistemi di AI generativa in grado di classificare e generare contenuti multimediali (tipicamente, ma non solo, testuali)”.

Come spiega Cabitza nell’utile glossario inserito nel manuale Intelligenza artificiale generativa del Corriere della sera, gli LLM sono sostanzialmente la base del funzionamento di molte applicazioni di Gen AI, come i chatbot.

Come fare a capire quali LLM sono migliori degli altri, considerando il loro numero in costante aumento? È qui che entrano in gioco i benchmark.   

Cosa sono i benchmark

Secondo l’Artificial Intelligence Index Report 2025 redatto dall’Institute for Human-Centered Artificial Intelligence (HAI) dell’Università di Stanford, nel campo dei LLM si intende per benchmark “un test standardizzato utilizzato per valutare le prestazioni e le capacità dei sistemi di intelligenza artificiale su compiti specifici”.

Per capire come funzionano i benchmark immaginate di essere un insegnante e di dover valutare diversi studenti: invece di basarvi su impressioni soggettive, li sottoponete tutti allo stesso esame, con le stesse domande e gli stessi criteri di valutazione.

Nel caso degli LLM, questi test possono riguardare diverse capacità: comprensione del testo, capacità di ragionamento logico, conoscenza generale, abilità matematiche, programmazione e persino creatività.

Esistono benchmark anche sulle “abilità robotiche”, sulla capacità di pianificazione o sulla guida autonoma dei veicoli, tutti ambiti nei quali l’intelligenza artificiale è applicata. Ad esempio, spiega il report, ImageNet è un benchmark AI canonico che presenta una vasta raccolta di immagini etichettate, e i sistemi AI devono classificare queste immagini con precisione.

Ogni benchmark si concentra su aspetti specifici e utilizza dataset (insiemi di dati) predefiniti per garantire che tutti i modelli vengano valutati equamente. Il risultato è solitamente un punteggio numerico o una percentuale che indica quanto bene il modello ha performato in quel particolare test. Questo permette di creare classifiche oggettive e confrontare diversi LLM sulla base di criteri misurabili.

I principali benchmark utilizzati

Nel panorama dei benchmark per LLM, alcuni si sono affermati come standard di riferimento nel settore. Oltre al già citato ImageNet eccone di seguito alcuni dei principali.

MMLU (Massive Multitask Language Understanding): considerato uno dei benchmark più completi, valuta la conoscenza dei modelli in 57 diverse materie, dalla matematica alla storia, dalla legge alla medicina. È particolarmente utile per misurare la “cultura generale” di un LLM.

HumanEval: specificamente progettato per valutare le capacità di programmazione, questo benchmark testa la capacità dei modelli di generare codice funzionante in Python – uno dei linguaggi di programmazione più diffusi – partendo da descrizioni in linguaggio naturale.

GSM8K: focalizzato sulla risoluzione di problemi matematici di livello scolare, questo benchmark è diventato un riferimento per valutare le capacità di ragionamento matematico degli LLM.

GPQA (Graduate-Level Google-Proof Q&A): un benchmark più recente che pone domande di livello universitario avanzato in fisica, biologia e chimica, progettate per essere così difficili che nemmeno una ricerca su Google può facilmente fornire le risposte.

HellaSwag: valuta la capacità di un modello di completare frasi in modo sensato e coerente con il contesto, testando essenzialmente il “buon senso” dell’AI.

I limiti dei benchmark

È importante notare che nessun benchmark da solo può catturare tutte le sfumature delle capacità di un LLM. Per questo motivo, i ricercatori e le aziende tendono a utilizzare suite di benchmark multiple per avere una visione più completa delle prestazioni di un modello.

Inoltre, sebbene monitorare i progressi sui benchmark è da sempre stato un metodo standard per la comunità AI per seguire l’avanzamento dei sistemi di intelligenza artificiale, il già citato report di Stanford dà ampio spazio a una riflessione sui limiti del benchmarking per la valutazione delle prestazioni dell’AI.

In primo luogo, molti benchmark prominenti stanno raggiungendo la saturazione: con il rapido avanzamento dei sistemi AI, anche i test più recenti e impegnativi rimangono rilevanti solo per pochi anni.

Un problema particolarmente critico riguarda inoltre la contaminazione dei dati. Quando un LLM viene addestrato, potrebbe aver già “visto” le domande dei test nel suo dataset di training, come avvenuto di recente sul benchmark GSM8K. Restando sulla metafora della scuola, è come se uno studente conoscesse in anticipo le domande dell’esame: il risultato non rifletterebbe le sue reali capacità.

Esistono poi aspetti dell’intelligenza che sfuggono intrinsecamente alla misurazione tramite benchmark. Mentre è relativamente semplice valutare capacità discrete come la classificazione di immagini o la risposta a domande a scelta multipla, diventa molto più complesso valutare aree come i sistemi multi-agente o l’interazione uomo-AI, dove la variabilità dei comportamenti umani e la diversità delle risposte corrette rendono la standardizzazione quasi impossibile.

Infine, il superamento stesso di benchmark storici solleva nuove domande. Il test di Turing, proposto nel 1950 come sfida definitiva per l’intelligenza artificiale, è ormai considerato obsoleto: i moderni LLM sono così avanzati che le persone faticano a distinguerli da un essere umano in conversazioni testuali.

Questo non significa che abbiamo raggiunto l’intelligenza artificiale generale – cioè la capacità dei sistemi informatici di svolgere come o meglio degli esseri umani la maggior parte dei compiti -, ma piuttosto che i nostri metri di misura potrebbero non essere più adeguati per valutare i progressi dell’AI.

Questa consapevolezza dei limiti non deve portarci a scartare i benchmark, ma piuttosto a utilizzarli con maggiore cognizione di causa, integrandoli con altre forme di valutazione come quelle basate sull’esperienza diretta degli utenti.

Mantenere l’umano in-the-loop: cos’è LmArena

Proprio per superare alcuni limiti dei benchmark potrebbe essere utile rivolgersi a LmArena. Si tratta di una piattaforma open-source per il benchmarking dei vari modelli AI che permette agli utenti di confrontare e valutare le risposte ad un prompt. I voti degli utenti determinano le posizioni degli LLM in classifica, al momento oltre 200.

Come funziona esattamente? Quando un utente sottopone una domanda o un prompt alla piattaforma, LmArena lo invia simultaneamente a due modelli di AI scelti casualmente. L’utente riceve le due risposte in forma anonima – senza sapere quale modello ha generato quale risposta – e può votare quale preferisce, oppure dichiarare un pareggio. Solo dopo il voto vengono rivelate le identità dei modelli.

Questo approccio blind elimina i bias che potrebbero derivare dalla conoscenza del brand o dalla reputazione di un particolare modello. Un utente potrebbe preferire inconsciamente una risposta sapendo che proviene da GPT-4 piuttosto che da un modello meno conosciuto, ma nel test cieco conta solo la qualità effettiva della risposta.

La piattaforma, sviluppata dall’organizzazione LMSYS (Large Model Systems Organization) utilizza un sistema di rating Elo – lo stesso impiegato negli scacchi competitivi – per calcolare i punteggi. Ogni “battaglia” tra due modelli aggiorna i loro rispettivi punteggi: il vincitore guadagna punti mentre il perdente ne perde, con variazioni che dipendono dalla differenza di rating iniziale tra i due contendenti.

Particolarmente interessante è la trasparenza del sistema: LmArena pubblica regolarmente statistiche dettagliate, inclusi i tassi di vittoria head-to-head tra modelli specifici, le preferenze degli utenti per diversi tipi di task (scrittura creativa, programmazione, ragionamento matematico), e persino analisi su quali modelli tendono a produrre risposte più lunghe o più concise.

La forza di questo approccio crowdsourced sta nel fatto che riflette le preferenze reali degli utenti in scenari d’uso concreti, piuttosto che performance su test predefiniti. Mentre i benchmark tradizionali misurano capacità specifiche in condizioni controllate, LmArena cattura quella sfuggente qualità che potremmo chiamare “utilità percepita” – quanto un modello risulta effettivamente utile e soddisfacente nell’uso quotidiano.

Tuttavia, anche questo sistema ha i suoi limiti: le valutazioni possono essere influenzate da fattori soggettivi come lo stile di scrittura preferito dall’utente, e modelli che producono risposte più verbose potrebbero essere favoriti anche quando una risposta concisa sarebbe più appropriata. Inoltre, la qualità delle valutazioni dipende dalla competenza degli utenti nel giudicare la correttezza e l’utilità delle risposte, specialmente per argomenti tecnici o specialistici.

L’importanza della sperimentazione corale

Quanto abbiamo visto finora sui benchmark riporta al centro della riflessione un punto: l’importanza della sperimentazione. Che può essere individuale, soprattutto se si parla di tool AI da utilizzare a livello personale, o anche collettiva se invece si parla di strumenti di AI generativa da dover adottare e utilizzare all’interno di aziende e organizzazioni. In questo senso, va sottolineato che la sperimentazione, quando è corale o, sembra portare molti più risultati ed efficacia su un tema di frontiera come l’AI generativa.

È quanto emerge dall’esperienza della design company Logotel, che ha adottato un approccio community-driven all’AI adoption e all’AI training. Grazie alle sue community di adozione dell’intelligenza artificiale, Logotel riesce ad accompagnare con efficacia le proprie persone e le persone delle aziende clienti a utilizzare questi nuovi strumenti, generando impatti positivi e concreti che si riflettono in un maggiore benessere lavorativo – più tempo a disposizione per attività a maggior valore aggiunto, meno task ripetitivi – e in una aumentata produttività.

In conclusione

I benchmark rappresentano uno strumento prezioso per navigare nel mare magnum degli LLM disponibili, fornendo metriche oggettive per confrontare modelli diversi. Tuttavia, è fondamentale ricordare che questi test, per quanto sofisticati, non possono catturare completamente l’esperienza d’uso reale di un tool di AI generativa.

Come abbiamo visto con piattaforme come LmArena o con l’approccio community-driven all’AI adoption, l’elemento umano rimane cruciale nella valutazione: un modello può eccellere nei benchmark tecnici ma risultare meno efficace nelle interazioni quotidiane, o viceversa. La scelta del tool giusto dipenderà sempre da una combinazione di fattori: i punteggi nei benchmark pertinenti al vostro caso d’uso, le valutazioni delle community di utilizzatori e soprattutto la vostra esperienza diretta.

I benchmark possono dunque essere un ottimo punto di partenza per orientarvi, ma rimane sempre necessario testare personalmente i diversi tool. Il miglior LLM sarà quello che risponderà meglio alle specifiche esigenze di ogni utilizzatore, indipendentemente dal punteggio ottenuto nei test standardizzati.