Non troppo artificiale! Una discussione su IA, umani e società

L'Intelligenza Artificiale (IA) non è più un concetto futuristico, ma una realtà che permea ogni aspetto della nostra vita, dalle interazioni quotidiane alle decisioni economiche e sociali. Comprendere le implicazioni dell'IA, i suoi confini e il suo impatto sull'essere umano e sulla società è fondamentale.

Con questi obiettivi l'Università degli Studi di Milano-Bicocca ha recentemente ospitato l'evento "Non così artificiale: discussione su IA, umani e società", un'occasione per riflettere sulle sfide e le opportunità che l'intelligenza artificiale presenta per il nostro futuro.

Al centro del dibattito, temi cruciali come l'etica, la responsabilità e il ruolo dell'IA nella trasformazione delle nostre vite, in linea con le attività del progetto ReGAInS del Dipartimento di Informatica, Sistemistica e Comunicazione nel cui contesto è stato organizzato l’evento.

Abbiamo chiesto al professor Giuseppe Vizzari di aiutarci a fare chiarezza e di condividere la sua visione sulle sfide che ci attendono.

Professor Vizzari, partiamo da un concetto spesso dato per scontato: cosa intendiamo davvero quando diciamo che un sistema di IA "ragiona"?

Nell’area dell’Intelligenza Artificiale il termine ragionamento automatico ha una lunga storia, le cui radici precedono di molto la nascita stessa della disciplina. Tradizionalmente si parlava di ragionamento facendo riferimento a sistemi di automazione di inferenza in qualche tipo di logica formale, nell’area che si definisce dell’Intelligenza Artificiale simbolica.

I Large Language Model (LLM), viceversa, sono modelli basati su tecniche di apprendimento automatico: semplificando al massimo il loro funzionamento, a partire da un prompt testuale generano una risposta completandolo parola per parola, sulla base delle informazioni assimilate nel corso dell’addestramento.

Questo processo molto semplice, ma estremamente adattabile a una serie di situazioni diverse, non è infallibile: sebbene in generale le risposte siano quasi sempre linguisticamente plausibili, a volte presentano errori fattuali. È stato osservato che la formulazione del prompt incide molto sulla qualità dei risultati: chiedere al modello di “procedere passo passo” e spiegare il ragionamento migliora significativamente le prestazioni, soprattutto in compiti di logica o matematica. Questo ha portato, da un lato, a quello che alcuni chiamano “prompt engineering”, ma anche a forme di funzionamento di modelli LLM dette “chain-of-thought” in cui il modello esplicita il processo logico. Gli sviluppi sul tema sono estremamente numerosi e frequenti e ci sono approcci che usano vere e proprie tecniche di ricerca per supportare il ragionamento, tornando verso direzioni già tracciate dagli approcci simbolici all’Intelligenza Artificiale. Nel discutere potenzialità e limiti di questi modelli, è frequente il paragone con il pensiero umano, ma credo che tali confronti vadano fatti con cautela. Sarebbe utile valorizzare maggiormente il contributo delle scienze cognitive sul tema: in ateneo abbiamo diversi esempi virtuosi di questo genere di sinergia, anche se molti sviluppi nel settore mantengono ancora un’anima più prettamente tecnologica.

Nel suo intervento ha parlato dell’impatto dell’addestramento dei modelli sull’infrastruttura digitale. Può spiegarci cosa sta succedendo, ad esempio con Wikimedia?

I Large Language Model (LLM) per essere addestrati hanno bisogno di enormi quantità di dati. Per dare un’idea più precisa, parliamo di miliardi di documenti provenienti da fonti accessibili online: i repository open source GitHub (con codice e documentazione), i libri liberi da copyright come quelli del progetto Gutenberg, gli articoli condivisi su ArXiv, vaste raccolte di pagine web, e anche tutta Wikipedia.

Quest’ultima, è una risorsa preziosa per diversi motivi: è liberamente accessibile, anche in senso legale, i suoi contenuti sono distribuiti con licenze Creative Commons, ed è disponibile in molte lingue diverse, il che la rende una sorgente di informazioni eccellente per l’addestramento di LLM.

Il punto è che questa accessibilità ha anche un costo: i bot automatizzati che recuperano le pagine Wikipedia per aggiornare e integrare i dataset di addestramento degli LLM generano un volume di traffico così elevato da mettere sotto pressione le infrastrutture del sito. Wikimedia Foundation, l’organizzazione che gestisce tra le altre cose anche Wikipedia, ha segnalato un aumento del 50% del traffico di rete proprio a causa delle richieste incessanti da parte di questi strumenti legati all’IA. Un fenomeno che sta comportando un notevole incremento dei costi operativi, sollevando interrogativi importanti sull’impatto delle tecnologie emergenti sulle piattaforme di conoscenza condivisa

Uno dei punti più critici è la questione della proprietà intellettuale: quanto è fragile oggi il confine tra uso lecito e sfruttamento massivo dei contenuti digitali?

Qui si tocca un punto sul quale ci sono diversi processi importanti in corso negli Stati Uniti: il fatto che un contenuto sia liberamente accessibile in Internet, e quindi consultabile da chiunque, significa automaticamente che possa anche essere utilizzato per addestrare un sistema di Intelligenza Artificiale Generativa (GenAI)?

La questione è tutt’altro che chiusa. Per esempio Getty Images, ha citato in giudizio Stability AI per aver usato milioni di sue foto per addestrare un proprio sistema di generazione di immagini senza autorizzazione. Il New York Times ha una causa aperta piuttosto simile contro OpenAI accusata di aver impiegato i contenuti editoriali del giornale per allenare i suoi modelli linguistici

Il punto chiave è che i fornitori di servizi di GenAI possono entrare in competizione con i legittimi detentori dei diritti di proprietà intellettuale sui contenuti usati per l’addestramento o comunque hanno la concreta possibilità di generare introiti che non sarebbero possibili senza l’utilizzo di questi contenuti. La legislazione in merito di protezione della proprietà intellettuale negli Stati Uniti risale al 1976, e con ogni probabilità richiede una revisione. Tuttavia una riforma di questo tipo si annuncia molto controversa perché da un lato rischia di influenzare in maniera decisiva lo sviluppo di un settore emergente e nel quale sono confluiti ingenti investimenti, dall'altro riguarda direttamente il peso geopolitico e strategico di attori come gli Stati Uniti e la Cina, attualmente leader nel campo. In Europa l’AI Act è un tassello importante, ma il quadro è più ampio e, chiaramente, globale.

Lei suggerisce che l’intelligenza artificiale ci costringe a ridefinire le basi della progettazione informatica. In che modo cambia il nostro modo di pensare la tecnologia?

Sicuramente la GenAI (Intelligenza Artificiale Generativa) ha portato alla luce nuove sfide ma ha anche esacerbato problemi che hanno radici precedenti. Basti pensare allo scandalo di Cambridge Analytica, alle ipotesi di abuso di posizioni dominanti nei settori dei motori di ricerca, della pubblicità online, e altro ancora. Il tema della neutralità della rete, poco discusso in Italia a differenza degli Stati Uniti, pone una questione di gestione dei rapporti e dei proventi tra chi eroga i servizi di connettività (le cosiddette telco) e chi eroga i contenuti (i social media, i servizi di streaming audio e video).

Le telco sostengono i costi di manutenzione e aggiornamento della parte fisica della rete, ma non beneficiano dei proventi degli abbonamenti ai servizi in streaming o della pubblicità veicolata tramite i servizi internet “gratuiti”. Vorrebbero quindi poter differenziare il traffico in rete, limitando per esempio quello legato allo streaming gratuito o intensivo, ma in tal modo si violerebbe proprio il principio di neutralità della rete, secondo il quale bisogna trattare il traffico in Internet senza differenziazioni.

La GenAI porta queste sfide a un livello più alto, che richiedono più urgentemente di essere affrontate, e ne pone di nuove:

lo scraping dei contenuti (cioè l’estrazione automatica di contenuti da siti web) per l’addestramento è molto più aggressivo, indiscriminato, e dannoso di quello effettuato dai motori di ricerca;
l’addestramento degli LLM ha costi energetici molto significativi (non molto diverso, si potrebbe dire, da quanto accade in settori discutibili come il turismo spaziale);
l’impatto dei servizi di GenAI su diversi segmenti della popolazione (tra cui gli studenti) è ancora largamente in corso di investigazione, sebbene noi dobbiamo già fare i conti con il fatto che questi servizi sono già molto utilizzati;
cresce la preoccupazione per la possibilità di generare contenuti plausibili ma falsi (i cosiddetti deepfake), difficili da riconoscere persino con strumenti avanzati.

Nel contesto della ricerca, le sfide sono tanto epistemologiche quanto pratiche: cosa intendiamo oggi per "ragionamento" in Intelligenza Artificiale? È ancora quello classico, legato alla logica formale e all’IA simbolica, o è cambiato con la centralità dei LLM? E ancora: come possiamo rendere sostenibile – sul piano energetico ed economico – lo sviluppo e l’uso di questi strumenti?

Questi interrogativi, più che teorici, sono ormai parte di una discussione urgente e concreta, che tocca il modo in cui viviamo, apprendiamo, e costruiamo fiducia nei confronti delle tecnologie.

Guardando avanti: quali strumenti dovremmo sviluppare, normativi, etici o culturali, per evitare che l’IA venga percepita come un “potere opaco”?

Personalmente mi sento molto distante dalle posizioni apocalittiche sul tema del rischio esistenziale portato dall’Intelligenza Artificiale nelle sue concretizzazioni attuali e prevedibili nel medio-breve periodo.

Credo che però ci siano rischi abbastanza significativi, e molto concreti, già con i servizi attualmente disponibili. Affrontarli in modo sensato richiede una maggiore consapevolezza da parte della società civile, oltre che da parte della politica, che non può più restare a guardare. Serve un’azione dal basso, un’opinione pubblica informata che sappia orientare le scelte politiche e non subirle.

Sono convinto che la retorica del “lasciamo correre l’innovazione e lo sviluppo tecnologico” sia stata forse inevitabile nelle prime fasi dello sviluppo del complesso fenomeno socio-tecnico che è Internet, ma che ora sia giunto il tempo di un approccio più responsabile e più adulto, anche alla luce di cosa non ha funzionato in questi ultimi anni. I nodi lasciati irrisolti ora mostrano le loro conseguenze, spesso gravi, e non possiamo più affidarci solo alla buona volontà del mercato. Forse l’Europa non è l’attore centrale nello sviluppo tecnologico, ma ha una risorsa fondamentale: i dati dei suoi cittadini e soprattutto siamo uno dei mercati più importanti al mondo per i servizi digitali.

Credo che dovremmo averne una maggiore coscienza collettiva e l’accademia ha la responsabilità di intensificare l’attività di disseminazione non solo per far conoscere i risultati di ricerca, ma anche per informare sui rischi, sensibilizzare sulla necessità di considerare l’innovazione da una pluralità di punti di vista, non solo quelli meramente tecnici ed economici, ma anche sociali, etici e culturali.