I LLM sono strumenti di intelligenza artificiale capaci di comprendere e generare testo naturale, con applicazioni in vari settori. Ma vale anche per la gestione del rischio da disastri? Fondazione CIMA, in collaborazione con l’IE University, ha esplorato l’integrazione degli LLM nei flussi di lavoro operativi, evidenziando sia il potenziale sia le attuali limitazioni di questi modelli
«I Large Language Models (LLM) sono una classe di modelli di intelligenza artificiale progettati per comprendere e generare testo naturale in linguaggio umano. Basati su architetture di reti neurali profonde, questi modelli sono addestrati su enormi quantità di dati testuali, che possono includere libri, articoli, siti web e altre risorse di testo disponibili online». Questa è la definizione di LLM data da… un LLM, chatGPT. Che di sé continua dicendo: «Sono stato addestrato su una vasta gamma di dati testuali per comprendere e generare testo in linguaggio naturale. Questo mi permette di rispondere a domande, scrivere testi, tradurre linguaggi, e molto altro. Posso assisterti in molteplici compiti che richiedono la comprensione e la generazione del linguaggio».
Che questi strumenti abbiano un ruolo sempre più importante in diversi ambiti della nostra società è noto: si possono inserire nei servizi online, come chatbot per assistenza e supporto, possono fornire traduzioni e generare articoli, immagini e varie altre forme di contenuti per la comunicazione e per la formazione… È evidente che anche nel contesto della ricerca scientifica, ormai, i LLM trovano un posto significativo (come purtroppo testimoniano anche parte delle loro risposte rimaste negli articoli). Quello della riduzione del rischio è però un campo peculiare, perché unisce aspetti di ricerca ad aspetti che non sono neanche, o almeno non solo, di ricerca applicata ma di vera e propria operatività, come avviene durante la gestione di un’emergenza. Come possono inserirsi i LLM in questo contesto?
Se lo sono chiesti anche i ricercatori di Fondazione CIMA che, in collaborazione con l’IE University di Madrid, hanno deciso di iniziare a sviluppare questo tema.
LLM e gestione del rischio da disastri
«I LLM si basano sullo stesso principio che guida le tecniche di machine learning: sono, cioè, in grado di apprendere e applicare le informazioni date loro durante la fase di training. Ma gli strumenti di machine learning classici si usano soprattutto per applicazioni di regressione o classificazione: ne è un esempio il lavoro svolto da Fondazione CIMA sugli incendi boschivi, nel quale il modello di machine learning usava le informazioni fornitegli per restituire delle informazioni sul rischio. I LLM, invece, usano le informazioni a loro disposizione per generarne di nuove», spiegano Mirko D’Andrea, ricercatore di Fondazione CIMA, e Jean Baptiste Bove, dottorando dell’Università di Genova che conduce i suoi studi presso CIMA. «In pratica, possiamo dire che i LLM sono sistemi in grado di prevedere, sulla base di una sequenza di parole, quella successiva».
Le prospettive di questi strumenti si vanno sempre più delineando man mano che vengono sviluppati, ma non sono, nemmeno oggi, del tutto chiare (anche in termini di rischi che si possono delineare con il loro avanzamento). L’idea dei due scienziati, quindi, era proprio cercare di capire come possano integrarsi nel flusso di lavoro degli enti dedicati alla gestione del rischio da disastri.
«Gli strumenti a disposizione sono tanti: noi ne abbiamo selezionati quattro, che abbiamo testato su tre casi di studio per verificare quanto bene riuscissero a svolgere alcune delle attività richieste nell’ambito della gestione del rischio», spiegano D’Andrea e Bove. «In particolare, abbiamo chiesto a ciascuno dei quattro LLM selezionati di provare a scrivere messaggi di allertamento (come quelli che sono inviati alla popolazione dal sistema IT-Alert), di descrivere scenari utilizzabili nell’ambito delle esercitazioni e infine, il compito più complesso, di fare una valutazione del rischio sulla base di parametri meteoclimatici che gli venivano forniti».
L’ipotesi di partenza prevedeva che i modelli potessero fornire output efficaci quando si trattava di dare informazioni generiche, ma lavorassero meno bene quando il compito era molto specifico e richiedeva informazioni (ma anche risposte) contestualizzate. Secondo questa ipotesi, i risultati degli LLM sarebbero stati inferiori quando le informazioni disponibile per le attività di contestualizzazione erano scarse.
Un benchmark per i LLM
Per verificare questa ipotesi, i ricercatori hanno testato i modelli chiedendo loro di svolgere le tre attività per nazioni differenti: Mozambico, Filippine e Spagna. «Questo ci forniva non solo Paesi con lingue e profili di rischio tra loro molto diversi, ma anche per i quali le informazioni a disposizione non sono omogenee: i dati online sono molti per la Spagna, intermedi per le Filippine e scarsi per il Mozambico», spiegano D’Andrea e Bove. «Abbiamo poi creato una griglia per la valutazione delle risposte dei LLM, che abbiamo chiesto di compilare sia a umani, esperti in gestione del rischio da disastri, sia a un’altra IA, chatGPT, che si è già dimostrata molto valida nell’eseguire una valutazione basata su indicazioni chiare».
I risultati si riassumono di fatto in un punteggio, indice della metodologia che funziona meglio a seconda del Paese. «È come se avessimo creato un benchmark che ci permette una prima valutazione di cosa, con i diversi LLM, si può fare nei diversi Paesi nell’ambito di attività che si portano normalmente avanti nella gestione del rischio», spiegano i ricercatori. Da questo lavoro emerge come i LLM trovino un’importante applicazione anche nel campo della gestione del rischio, per esempio nel recupero rapido dei dati da grandi dataset, così da migliorare l’efficienza dei flussi di lavoro basati sul testo. Ma emerge anche quella che è, al momento, la limitazione principale di questi strumenti: i LLM più ampiamente disponibili non hanno accesso ai dati necessari per fornire output di qualità equivalente a quella umana a un livello di specificità contestuale richiesto. Questo diventa particolarmente evidente quando il LLM si trova a confrontarsi, per esempio, regioni al di fuori dell’Occidente, dialetti locali ampiamente utilizzati, tipi di disastro meno comuni, regioni con dati meno robusti o la necessità di valutazioni complete del rischio.
«In generale, non possiamo non considerare l’incredibile velocità con cui l’IA si sta sviluppando: senza dubbio, anche in questo contesto assisteremo nel prossimo futuro a rapidi avanzamenti. Capire come lo farà e come potremo sfruttare il loro sviluppo sarà senz’altro un lavoro importante nei prossimi anni», concludono D’Andrea e Bove. «Intanto, cercando di approfondire meglio fino a che punto i LLM possano contribuire ai vari aspetti della gestione dei disastri, noi espanderemo questa iniziale indagine: il nostro obiettivo è arrivare ad avere un benchmark che permetta d’iniziare a usarli anche in modo operativo, nelle attività quotidiane di riduzione del rischio».