Migliorare la compressione dei dati
e le capacità di ricerca per rendere più fruibile il Software
Heritage Archive, il più grande archivio al mondo dedicato ai
codici sorgente dei software pubblicamente disponibili, da
quello che guidò l'Apollo 11 sulla Luna a quelli che hanno dato
vita alla computer music: è l'obiettivo del progetto biennale
coordinato da Paolo Ferragina, professore di informatica della
Scuola Superiore Sant'Anna e dell'Università di Pisa, che è
stato finanziato dalla Alfred P. Sloan Foundation, ente
filantropico statunitense tra i più importanti sostenitori della
ricerca in ambito scientifico, tecnologico, ingegneristico,
matematico ed economico.
Il Software Heritage Archive è nato nel 2016 da un'iniziativa
no profit promossa dall'Istituto nazionale francese di ricerca
in informatica, in collaborazione con l'Unesco, e coordinata
dall'informatico italiano Roberto Di Cosmo. Attualmente
l'archivio conserva oltre 23 miliardi di file, provenienti da
più di 350 milioni di progetti software disponibili
pubblicamente sul web, e creati da più di 85 milioni di
programmatori. Si tratta di un vero e proprio patrimonio
immateriale dell'informatica che sta diventando sempre più
prezioso anche per l'intelligenza artificiale: ricercatori e
ingegneri stanno infatti costruendo modelli pre-addestrati per
la generazione e la sintesi di codice e per migliorare le
prestazioni dei Large Language Model come GPT-4 di OpenAI o
Gemini di Google, addestrandoli sia sul linguaggio naturale che
sul codice sorgente dei software pubblicamente disponibili.
Sapersi muovere in questa gigantesca biblioteca virtuale con
strumenti più efficaci ed efficienti è la sfida del progetto
coordinato dalla Scuola Superiore Sant'Anna di Pisa, che
svilupperà nuovi algoritmi per la compressione dati (necessaria
per risparmiare spazio di memorizzazione nell'archivio) e un
motore di ricerca con caratteristiche uniche (ad esempio per
rilevare e tracciare parti di codice plagiate o potenzialmente
dannose per la cybersecurity).
Riproduzione riservata © Copyright ANSA