Finalmente c’è una definizione precisa di intelligenza artificiale “open source”

Bisogna partire da un presupposto: definire un’IA “open source” è più complesso rispetto a quanto accade per un normale software ‘aperto’.

Con un software tradizionale, una licenza open source garantisce che il codice sia disponibile, modificabile e distribuibile liberamente. Tutto ciò offre a chiunque la possibilità di accedere al codice sorgente e contribuire con migliorie o adattamenti.

Ma con l’AI la questione si complica.

“A differenza di un software, l’IA non ha un vero e proprio codice sorgente” ci dice Stefano Maffulli, l’italiano a capo della Open Source Initiative (OSI), vale a dire l’istituzione che da diversi decenni lavora per stabilire quale tecnologia si può definire correttamente open source.

Stefano Maffulli, Direttore esecutivo della Open Source Initiative 

“Il codice sorgente di un software è scritto da programmatori ed è comprensibile agli esseri umani – spiega Maffulli, Direttore esecutivo dell’OSI da tre anni -. Successivamente, questo codice viene elaborato da un software chiamato compilatore, che lo trasforma in un linguaggio binario, leggibile dalle macchine. Codice sorgente e codice binario sono dunque due versioni dello stesso artefatto: una per gli umani e una per le macchine”.

Quando ci si addentra nel machine learning e nel deep learning, però, la situazione si ingarbuglia.

In questi casi, il processo di creazione di un modello si basa su un insieme di dati e un algoritmo che “addestra” il modello a rispondere correttamente a specifici input, ma il risultato finale non è mai identico.

“Prima ci sono i dati grezzi, che vengono trasformati in dataset e poi sottoposti a un processo di addestramento, che infine genera i ‘pesi’ o ‘parametri’ del modello” ci dice Maffulli.

Alcuni paragonano proprio la fase di addestramento di un modello al processo attraverso cui il codice sorgente [scritto appunto dai programmatori] viene convertito in un linguaggio comprensibile alla macchina.

“Ma c’è una differenza cruciale – sottolinea Maffulli – Questa traduzione nel machine learning non è deterministica, cioè non produce sempre lo stesso risultato a partire dagli stessi dati. Anche fornendo gli stessi dataset, la stessa procedura di addestramento e gli stessi algoritmi, il modello finale non sarà identico, ma avrà comportamenti simili. I parametri risultanti non sono una ‘copia’ del dataset iniziale: sono il risultato di un processo non prevedibile e non replicabile perfettamente”.

Quindi se si addestrasse da zero un modello più volte con gli stesi dataset, si otterebbero modelli leggermente diversi tra loro, anche se con comportamenti simili.

“Ed è proprio questo che rende complesso definire chiaramente i legami tra dataset originali e parametri finali – afferma Maffulli -. Per affrontare questa complessità, abbiamo lavorato con sviluppatori e creatori di sistemi di intelligenza artificiale, focalizzandoci sull’importanza del codice che genera i dataset e dell’algoritmo di addestramento, più che sull’accesso ai dati grezzi. In pratica, avere accesso a questo codice ci permette di capire come vengono generati i parametri del modello, spesso più di quanto possa fare l’accesso diretto ai dati stessi”.

Ci sono voluti diversi anni di lavoro, ma alla fine la Open Source Initiative è giunta a una prima definizione di “intelligenza artificiale open source” che ha lo scopo di offrire uno standard in base al quale chiunque può determinare se un’IA è veramente aperta oppure no.

Il primo requisito fondamentale è che un modello open source sia accessibile senza limitazioni basate sul tipo di utilizzo o sull’identità dell’utente” dice Mazzulli .

In altre parole, chiunque – indipendentemente dal settore, dallo scopo o dal background – dovrebbe avere la possibilità di accedere al modello, modificarlo e utilizzarlo per i propri progetti.

Questo principio garantisce l’inclusività e l’equità nell’accesso alle risorse di intelligenza artificiale open source, e consente a una comunità diversificata di contribuire, migliorare e riutilizzare il modello per scopi diversi, che si tratti di ricerca, business, educazione o progetti no-profit.

“Un’intelligenza artificiale open source, inoltre, consente di comprendere appieno come è stata costruita” afferma Maffulli. “Il secondo requisito dunque è che siano disponibili tutti i componenti di una IA, come il codice completo utilizzato per l’addestramento e il filtraggio dei dati”.

“Importante è avere accesso anche ai dati completi utilizzati per il training – aggiunge Maffulli – o in mancanza di tali, per questioni legali o di privacy, si dovrebbe avere accesso a una documentazione completa e dettagliata che elenchi la provenienza dei dati utilizzati e il loro contenuto”.

Il terzo e ultimo requisito di una IA open source è che si possa costruire liberamente e gratuitamente su di essa, dunque su una tecnologia già esistente” ha aggiunto Maffulli.

La versione 1.0 della definizione di IA open source mette in discussione quanto siano realmente “aperti” alcuni modelli molto popolari sviluppati per esempio da Meta e Mistral. Queste due aziende, infatti, definiscono ‘aperta’ la loro intelligenza artificiale.

Maffulli non lo trova corretto, come ha spiegato anche al Financial Times.

“A Llama, l’IA che Meta presenta come open source, mancano tutte e tre le caratteristiche principali che fanno dell’IA una tecnologia aperta – sostiene Maffulli – Abbiamo per esempio i parametri di Llama 2, ma questo modello è disponibile con restrizioni legali discriminatorie su uso e distribuzione. Non ci sono né il codice per l’addestramento né quello per il filtraggio dei dati, e non sono fornite informazioni dettagliate su come i dati sono stati organizzati o da dove provengono. Praticamente, non sappiamo nulla: ci viene solo detto di fidarci che il modello funziona bene, supportato dai benchmark. Capisco che sia costato 200 milioni, ma mancano ancora troppi elementi fondamentali”.

La questione legata alla libertà di utilizzo di un modello, per Maffulli, è fondamentale. E aiuta a comprendere in quali casi una IA non può essere considerata “totalmente open source”.

“Llama, per esempio, può essere utilizzato solo se si hanno meno di un certo numero di milioni di utenti attivi al mese, una clausola evidentemente pensata per escludere grandi aziende come Amazon, Google e Tencent dal suo utilizzo gratuito – spiega Maffulli -. Tuttavia, questo limite impedisce anche l’uso del modello in contesti di interesse pubblico, come, ad esempio, da parte di un governo di un Paese con milioni di cittadini che volesse utilizzarlo per iniziative mediche su scala nazionale, o per applicazioni a livello dell’intera popolazione europea, a meno che non si ottenga un’autorizzazione specifica”.

“Ci sono poi altre clausole restrittive nei termini d’uso che, anche se apparentemente banali, sono in contrasto con i principi dell’open source – fa notare Maffulli -. Per esempio il divieto di usare il modello per attività “illegali” potrebbe sembrare ragionevole, ma è ambiguo. Alcune attività potrebbero essere proibite in un paese come Israele ma non in Francia. Questi aspetti potrebbero certamente essere risolti attraverso discussioni e modifiche nei termini d’uso, ma la loro presenza per ora è in conflitto con la definizione di open source”.

I paletti individuati dalla Open Source Initiative, a questo punto, restringono il campo delle realtà che possono realmente vantarsi di sviluppare intelligenza artificiale open source.

Tra le IA sicuramente aperte, dice Maffulli, ci sono Eluther AI, l’Allen Institute for AI, LLM360 e Falcon.

Continua la lettura su: https://www.repubblica.it/tecnologia/2024/10/29/news/intelligenza_artificiale_open_source_definizione_significato_requisiti-423584127/?rss Autore del post: La Repubblica Tecnologia Fonte:

Il Ministero delle Pari Opportunità finanzia il tuo corso digitale

Dipartimento Pari Opportunità

Chiedi tutte le informazioni a genitoridigitali@koinokalo.it

Partecipa ai corsi gratuiti

Articoli Correlati

Ecco l’Open Source Intelligence (Osint) per le indagini digital-forensics

L’Open Source Intelligence (OSINT) sta diventando sempre più rilevante nelle indagini digital-forensics, integrando e supportando le tecniche investigative tradizionali. Attraverso un processo in quattro fasi, può fornire un prezioso supporto agli investigatori, migliorando l’efficacia delle indagini e aiutando a risolvere casi complessi
L’articolo Ecco l’Open Source Intelligence (Osint) per le indagini digital-forensics proviene da Agenda Digitale.

AI e protezione dei dati, gli scenari di rischio da valutare nella DPIA: una guida

Le valutazioni di impatto sulla protezione dei dati (DPIA) sono cruciali nel contesto dell’Intelligenza Artificiale (AI). È essenziale un approccio strutturato per identificare e mitigare i rischi, in linea con l’AI Act e il GDPR. Trasparenza, accountability e coinvolgimento degli stakeholder sono fondamentali per garantire la protezione dei diritti degli individui
L’articolo AI e protezione dei dati, gli scenari di rischio da valutare nella DPIA: una guida proviene da Agenda Digitale.