Se la prima cosa che vi viene in mente quando sentite la parola "Bayesian" è il nome della barca a vela che lo scorso agosto è tragicamente naufragata in Sicilia, sappiate che dietro a quel termine si cela in realtà un’affascinante branca della statistica, detta appunto bayesiana.
Proprio sulla statistica bayesiana (dal nome del reverendo britannico Thomas Bayes che nel Settecento enunciò il teorema di Bayes, uno degli strumenti di questa branca della statistica) si concentra il lavoro del ricercatore dell’Università di Milano-Bicocca Tommaso Rigon che ha ricevuto recentemente ben tre premi internazionali. A conferirglieli è stata l’International Society for Bayesian Analysis, la più importante società scientifica che promuove lo sviluppo e l'applicazione dell'analisi bayesiana per la soluzione di problemi teorici e applicati nella scienza, nell'industria e nel governo.
Abbiamo chiesto a Tommaso Rigon di raccontarci l’importanza di quei premi e un po’ di più sul suo campo di studi.
Partiamo dai premi. Ha fatto “triplete”, vincendo ben tre premi di ISBA. Ce li racconta?
Sì, qualche settimana fa mi è stato assegnato il Blackwell & Rosenbluth Award un premio individuale assegnato da j-ISBA (sezione “junior” della società) con questa motivazione: "The award aims at recognizing outstanding junior Bayesian researchers based on their overall contribution to the field and to the community” (“Il premio mira a riconoscere i ricercatori bayesiani junior più meritevoli in base al loro contributo complessivo al campo e alla comunità).
Questa estate, invece, insieme ai professori Daniele Durante, Sirio Legramanti e David Dunson abbiamo vinto il Mitchell Prize assegnato da ISBA a “un lavoro eccezionale che descrive come l'analisi bayesiana abbia risolto un importante problema applicativo” (“an outstanding paper that describes how a Bayesian analysis has solved an important applied problem”).
Qual è stato il suo contributo?
Il Mitchell Prize ha premiato un lavoro corale e ha riconosciuto un articolo scientifico in cui, grazie alla statistica bayesiana, era stato realizzato un modello per prevedere e spiegare la struttura di una rete criminale, in particolare della ‘ndrangheta. Lo studio mette insieme dati raccolti a partire dagli atti giudiziari per capire, tra le altre cose, se in un determinato territorio esistono comunità nascoste rispetto a quelle già identificate oppure per confermare l’esistenza di strutture che la polizia ha già identificato, chiarendo poi quale sia la loro struttura organizzativa, se sia di tipo gerarchico, se sia formata da piccoli gruppi e come questi si coordinino.
Io mi sono occupato della parte più metodologica e teorica di questi lavori. Questo studio è stato il preludio di progetto di ricerca internazionale più ampio chiamato NEMESIS che è stato recentemente finanziato tramite un ERC starting grant (un finanziamento alla ricerca dell’European research council, agenzia per la promozione della ricerca internazionale, ndr) ed è diretto dal professor Daniele Durante. Io sono un componente del gruppo di ricerca con il quale proseguirò a collaborare negli anni a venire.
Il premio Blackwell & Rosenbluth Award è invece alla persona e al mio lavoro su un argomento che mi sta particolarmente a cuore, ovvero l’ecologia e la biodiversità. Il lavoro è svolto all’interno di un progetto internazionale chiamato LIFEPLAN e nato grazie a un ERC sinergy grant che si basa sull’idea di mappare la biodiversità nel nostro pianeta. Il progetto si avvale di centinaia di studiosi da 53 Paesi diversi che raccolgono dati in tutto il mondo. Attualmente, si stima che l'80% di tutte le specie presenti sulla Terra sia ancora in attesa di essere scoperto. Allo stesso tempo, stiamo perdendo biodiversità a un ritmo allarmante. LIFEPLAN si propone di stabilire lo stato attuale della biodiversità in tutto il mondo e di utilizzare le nostre conoscenze per generare previsioni accurate del suo stato futuro.
Il mio ruolo è quello di creare modelli matematici che aiutino a spiegare questo tipo di meccanismi, per esempio per identificare delle misure di biodiversità, come queste variano nel tempo, se la biodiversità sta crescendo o diminuendo (e non parliamo solo di mammiferi ma di tutte le specie viventi, dai funghi alle piante, passando per gli insetti). Faccio un esempio: in Amazzonia sono registrate 5.000 specie di piante, ma i modelli statistici che mettiamo in atto ci suggeriscono che probabilmente le specie di alberi sono nell’ordine delle 15mila. Un recente viaggio in Madagascar con alcuni ricercatori di LifePlan è stato davvero formativo per me che sono abituato a stare dietro una scrivania.
Dicevamo che i premi erano tre…
Sì, assieme ai due che vi ho raccontato c’è il Savage Award che ho vinto ormai qualche anno fa, nel 2020, e che premiava la miglior tesi di dottorato relativa a temi di statistica bayesiana. In questo caso, particolarmente apprezzate erano state alcune scoperte teoriche che aprono la strada a diverse applicazioni statistiche che coinvolgono dati su larga scala. Interessanti risultati erano emersi dall'analisi approfondita del dataset relativo all'INVALSI 2016-2017, un esame nazionale condotto in Italia per misurare le competenze didattiche di un insieme di scuole considerando le caratteristiche socio-demografiche degli studenti.
Sebbene il Blackwell & Rosenbluth sia stato istituito solo di recente, credo di essere il primo ad aver ricevuto la tripletta.
Mi piace ricordare che lei era anche tra i vincitori del premio “Giovani talenti” dell’Università di Milano-Bicocca.
Vero. Nel 2021 ho ricevuto il primo Premio "Giovani talenti" ex-aequo “Per il contributo originale allo studio di leggi finito-dimensionali nell'approssimazione di distribuzioni iniziali non parametriche di dimensione infinita”.
Qual è la sua formazione?
La mia formazione è di uno statistico classico, ho studiato statistica dalla laurea al dottorato. Il mio ambito specifico è la statistica bayesiana (non parametrica) che non nasce come strumento con un determinato ambito di applicazione come l’ecologia di cui abbiamo appena parlato, ma che si può applicare a qualsiasi settore (per esempio quello dell’Intelligenza artificiale: lo stesso Chatgpt ha al suo interno strumenti di statistica bayesiana). Insomma, la statistica bayesiana è pervasiva. Io come ricercatore sviluppo strumenti che possono essere utili ad altri ricercatori in giro per il pianeta su contesti applicativi più specifici.
Adesso dobbiamo però addentrarci nell’argomento forse più difficile: che cos’è esattamente la statistica bayesiana?
Si tratta da un concetto piuttosto complesso di matematica astratta. La statistica bayesiana fornisce una classe di metodi basati sul ragionamento induttivo, ovvero a partire da una serie di informazioni (che sono i dati di cui è in possesso) si cerca di fare un’inferenza sulla popolazione generale. La peculiarità della statistica bayesiana, rispetto a quella classica, è che è possibile inglobare nell’analisi anche le cosiddette “informazione a priori”: si tratta di informazioni soggettive ma non nel senso di arbitrarie. Direi piuttosto che sono informazioni che riguardano il contesto: per esempio, possiamo incorporare tutto quello che le ricerche precedenti hanno detto sul tema.
Come modellare infatti insiemi di dati molto complessi o, viceversa, dati molto scarsi? Le informazioni a priori ci aiutano a costruire una struttura e a fare previsioni.
Facciamo qualche esempio.
Torniamo all'Amazzonia e ai suoi alberi. Quello che abbiamo a disposizione non sono solo i dati sul numero di specie di piante conosciute, ma abbiamo anche i pareri degli ecologisti su quante si pensano siano le specie effettive. La statistica bayesiana combina queste diverse sorgenti informative provenienti dalla comunità scientifica, mettendo assieme dal punto di vista matematico queste opinioni soggettive. E, secondo me, lo fa nel modo più coerente ed elegante che abbiamo a disposizione, consentendo di arrivare a una buona sintesi tra i dati che ho osservato e raccolto (le specie di alberi effettivamente catalogate secondo gli scienziati) con quella che è l’informazione a priori.
E per quanto riguarda le reti criminali invece?
In questo caso, posso partire dai dati in possesso dalle forze dell’ordine su quante siano le comunità e sottocomunità criminali. Si tratta però di informazioni parziali e non possono essere l’unico dato possibile, ma piuttosto un punto di partenza grazie al quale si arriva a una “distribuzione a posteriori” che mostra com’è cambiata la mia conoscenza del mondo in esame.
Semplificando, va detto che anche la statistica classica tiene conto di queste informazioni di contesto ma lo fa in modo un po’ diverso tenendone conto di quella che viene definita “verosimiglianza”. A questo approccio la statistica bayesiana aggiunge anche le informazioni a priori, dandomi uno strumento in più nella mia “cassetta degli attrezzi”.
Qual è il punto di forza della statistica bayesiana?
La statistica non deve necessariamente arrivare a una risposta definitiva, soprattutto quando i dati non lo consentono. Mi aiuta piuttosto a capire quanto il quadro in cui mi sto muovendo è complesso e quanto posso fidarmi di quello che sto dicendo. Insomma mi aiuta a quantificare l’incertezza. Continuiamo il nostro esempio: con i dati che abbiamo, non possiamo dire con certezza quante specie di alberi esistano in Amazzonia ma possiamo arrivare ad avere un ordine di grandezza, un intervallo ragionevole (tra le 10mila e le 20mila specie appunto).
Facciamo anche l'esempio delle recenti elezioni americane. Molti dei modelli che hanno previsto le elezioni americane erano bayesiani, per esempio quello dell'Economist e di FiveThirtyEight (sito web statunitense specializzato in sondaggi, ndr) e si sono molto spesi per capire quale fosse il grado di incertezza coinvolta. Infatti, quello che avevano indicato è che, prima di vedere il risultato, non era possibile sapere chi avrebbe vinto le elezioni. Il grado di incertezza era troppo grande per fare previsioni affidabili.