L’AI messa alla prova dagli INVALSI

Immaginiamo una “classe” di LLM – Large Language Model, composta da 20 “alunni” –che si chiamano OpenAI, Anthropic, Google, Gemini, Gpt…- alle prese con i test INVALSI. Quali sarebbero i loro risultati? In cosa andrebbero meglio: in grammatica oppure sarebbero bravi nella comprensione del testo?

Per capire quanto queste “nuove intelligenze” siano brillanti, un gruppo di docenti del CRISP (Centro di ricerca interuniversitario per i servizi di pubblica utilità di Milano-Bicocca) ha messo alla prova i principali LLM, confrontandoli tra loro in ambito linguistico.

A Fabio Mercorio, informatico, uno degli autori di questo studio, abbiamo chiesto di spiegarci come si è svolta questa ricerca, il perché dell’utilizzo degli INVALSI, e, naturalmente, quali risultati ha avuto.

Perchè è utile "valutare l'AI"?
Anzitutto, ricordo che l'AI serve - o meglio ci serve - per svolgere le attività che non possiamo o non vogliamo svolgere da soli. Se avessimo tempo e risorse infinite le svolgeremmo noi, ma poichè non è così l'automazione e la tecnologia (ed oggi l'AI in particolar modo) ci assistono svolgendo compiti per noi o supportandoci in alcuni di questi. Quindi, ci si aspetta che gli algoritmi siano bravi almeno quanto noi nello svolgerli: da qui l'importanza strategica del valutare l'AI nello svolgimento di un compito prettamente umano, come lo svolgimento di un test che verifichi le varie sfaccettature dell'apprendimento scolastico. Nel caso degli LLM, la valutazione è cruciale per garantire che questi modelli siano linguisticamente versatili, culturalmente rilevanti e applicabili in contesti diversi a livello globale, assicurando la loro utilità pratica oltre l'inglese (loro “lingua madre”).

La valutazione serve quindi a identificare e migliorare le potenzialità e le limitazioni di questi modelli in scenari reali, permettendo ai ricercatori e agli sviluppatori di affinare le loro capacità di comprensione e generazione del linguaggio.

Perchè usare gli INVALSI? Che vantaggio offrono?
Avere un dato di confronto per valutare come l'AI si comporta su attività prettamente umani è sempre difficile e dispendioso, poiché richiede il coinvolgimento degli utenti. Noi abbiamo pensato di usare i test INVALSI che da sempre sono somministrati a migliaia di studenti ogni anno e che sono costruiti per valutare le principali competenze degli studenti, di cui sono noti i risultati.

Come nasce e in cosa consiste, nello specifico, la ricerca?
Nasce, come spesso accade, davanti ad un caffè: in Bicocca stiamo lavorando da anni ad un progetto europeo per il processamento di milioni di annunci di lavoro che collezioniamo online in tutta Europa (32 paesi, più di 30 lingue, più di 400 milioni di annunci unici dal 2019). Oggi usiamo diversi LLM e ci siamo accorti di alcune peculiarità linguistiche dei modelli, quindi ci siamo chiesti: c’è un modo per valutarli su un benchmark umano precostituito? Così con il prof. Mezzanzanica e con Seveso, Potertì e Serino al CRISP è nata l’idea del lavoro.

Abbiamo formato una "classe AI" con i principali LLM, più di 20, aperti e a pagamento, per vedere come se la caverebbero se a fine anno anche loro dovessero svolgere le prove INVALSI. Abbiamo collezionato dal sito INVALSI più di 600 domande che compongono il test dalle elementari alle superiori, adattandole per permettere una maggior efficacia nel prompting e quindi fedeltà della risposta. Volevamo una valutazione prettamente legata a task linguistici, quindi per ora abbiamo escluso le domande matematiche o che richiedono visione per rispondere, le includeremo prossimamente.

Poi abbiamo guardato ai risultati...

Ecco: quali sono stati i risultati della valutazione?
Alcuni sono attesi e prevedibili: come in una classe reale, ci sono “studenti” particolarmente brillanti, altri meno. In generale, i modelli linguistici di grandi dimensioni battono largamente i modelli più compatti, segno questo di come la dimensione del modello sia oggi ancora una misura della loro performance. Ci sono poi variazioni significative di prestazione tra i modelli a seconda del grado scolastico delle domande e della complessità linguistica. In generale, tutti gli LLM eccellono nei test delle scuole elementari, mostrano prestazioni leggermente inferiori nelle medie e incontrano più difficoltà nei test delle superiori.

Più singolari invece i risultati che ci hanno sorpresi: se considerati come una classe, allora la "classe LLM" se la cava piuttosto bene nella comprensione del testo (mediamente tra il 67% ed il 71% di accuratezza), e riflette bene sul testo in termini di composizione delle parole e pragmatica, ma sulla morfologia e sintassi è una classe carente (accuratezza attorno al 50%, anche per i migliori). Ad esempio, alle frasi "Antonio è andato **a prendere il latte" e “Giovanni **a una macchina rossa", la metà delle volte gli LLM non riescono a decidere se la “a” funge da preposizione o verbo.

E’ un comportamento controintuitivo, visto che spesso gli LLM si contraddistinguono per la capacità di generare testo grammaticalmente corretto. Crediamo che dipenda dalla natura probabilistica con cui gli LLM generano il testo, per cui non “comprendono” la regola ma ne inferiscono le caratteristiche principali. La comunità scientifica sta infatti lavorando attivamente per dotare gli LLM di capacità di ragionamento e pianificazione, ne vedremo delle belle nei prossimi anni. Curiosamente, le performance dei modelli di OpenAI sono influenzati da una funzione di censura del testo. Ad esempio nel caso dell'analisi del testo de "il padrone della luna" di Rodari che narra di un tiranno violento, i modelli OpenAI si rifiutano di processare il testo perchè ritenuto violento. Infine, i top player, sebbene addestrati in lingua inglese, sono ancora superiori ad alcuni modelli addestrati o ottimizzati in italiano.

Infine, abbiamo valutato le performance degli LLM rispetto agli studenti italiani: i modelli tendono a mostrare prestazioni peggiori nei gradi scolastici superiori, mentre i modelli più grandi generalmente mostrano prestazioni migliori. Diversamente, non c’è alcuna correlazione tra il grado scolastico e le prestazioni degli studenti umani.

Restando nella metafora: quale sarebbe lo “studente” più brillante?
Un inatteso, Anthropic claude-3-opus, ma al netto dei decimali c'è da dire che il podio è dominato dai top player, Anthropic, OpenAI, e Google. Ma le cose nell’AI cambiano in fretta, per questo crediamo che uno dei principali contributi del lavoro sia l’estendibilità nel tempo: abbiamo creato una leaderbord pubblica online che consenta a chiunque di inviare un modello per la valutazione rispetto al benchmark, contribuendo a rendere quindi INVALSI uno standard de facto con cui valutare gli LLM su task della lingua italiana nel tempo: come miglioreranno nel 2025? Come nel 2026? E come andranno rispetto agli studenti del prossimo triennio? Come stimare il miglioramento?

Il contributo principale del lavoro risiede nel porsi come risorsa per rispondere a queste domande, ancor più che nei risultati che oggi osserviamo, perchè ci permetterà di monitorare l’evoluzione dei modelli linguistici di grandi dimensioni nel tempo e di compararli con le conoscenze apprese dai nostri studenti.