L'intelligenza artificiale (IA) è la capacità di un sistema artificiale di simulare una forma di intelligenza. Notoriamente in questa definizione vengono inclusi molti sistemi che simulano, appunto, forme di intelligenza umana, tra i quali nei ultimi anni sono emersi i LLM, cioè i Large Language Model.
I LLM rappresentano un progresso trasformativo nell'intelligenza artificiale, sono modelli di uso generale che vengono addestrati su ampi set di dati e che hanno molteplici applicazioni, spaziando dalla generazione di testo all'assistenza alla codifica, all'analisi dei sentimenti e altro ancora. Alcuni LLM sono multimodali, cioè in grado di elaborare e generare dati come immagini, audio, video. Attualmente hanno stabilito nuovi standard per l'elaborazione del linguaggio naturale (NLP).
I LLM operano tramite vari passaggi (lifecycle), ciascuno dei quali può comportare rischi per la privacy. Durante la fase di addestramento, i dati utilizzati (dataset) possono contenere dati personali. Nella fase di inferenza, cioè la fase nella quale il modello genera l'output in risposta al prompt dell'utente, gli output generati potrebbero rivelare accidentalmente dati personali o anche contenere disinformazione. Infine, nei feedback loop, fase nella quale le interazioni degli utenti vengono riutilizzate per migliorare o aggiornare il modello, le interazioni possono essere memorizzate senza sufficienti garanzie di tutela della privacy.
Gli Agentic AI (intelligenza artificiale agentica) sono sistemi autonomi costruiti sopra i LLM, in grado di svolgere compiti complessi con un comportamento proattivo e orientato agli obiettivi. A differenza dei semplici workflow, gli agenti possono pianificare, prendere decisioni, imparare dall'ambiente ed eseguire azioni in modo dinamico. La loro architettura modulare include componenti per la percezione, il ragionamento, la pianificazione, la memoria e l'azione. Gli Agentic AI presentano, ovviamente, tutti i rischi già presenti nei LLM, ma essendo proattivi piuttosto che reattivi, questo incrementa in modo significativo i rischi per la privacy. Quindi gli agenti presentano rischi ulteriori.
Modelli Open e Closed
Un aspetto rilevante per valutare i rischi associati ai vari modelli e se è Open o Closed. I modelli chiusi sono modelli proprietari che non forniscono accesso pubblico ai loro pesi o al codice sorgente e l'interazione con il modello è limitata, mentre i modelli aperti sono resi pubblici completamente o parzialmente ( solitamente i dati di training). I pesi indicano i parametri utilizzati per l'addestramento. che, se disponibili al pubblico, consentono l'ispezione, la messa a punto o l'integrazione in altri sistemi. Si tratta di una classificazione indipendente dalla licenza, che può essere open source se il modello garantisce a tutti la libertà di utilizzare, studiare, modificare e distribuire il modello.
Modelli Closed e Closed Weights (Chiusi):
- mancanza di trasparenza esterna, gli utenti si affidano completamente alle misure di privacy del fornitore, rendendo difficile verificare in modo indipendente la conformità alle normative sulla protezione dei dati. Non c'è accesso pubblico ai pesi del modello o al codice sorgente, e l'interazione è solitamente limitata a un'API o a un abbonamento.
Modelli Open e Open Weights (Aperti):
- rischio di esposizione dei dati personali e violazioni della sicurezza, se i dati di addestramento contengono informazioni sensibili o dannose, c'è il rischio che queste vengano esposte. I parametri del modello (pesi) sono pubblicamente disponibili, permettendo ispezione e modifica.
- accesso parziale e scrutinio limitato, anche se "aperti", questi modelli potrebbero non rendere disponibile tutto (spesso mancano i dati di addestramento specifici o sono rilasciati sotto licenze specifiche). L'accesso parziale può impedire un'analisi completa dei dati di addestramento del modello e delle potenziali vulnerabilità per la privacy.
Rischi per la privacy dei LLM
I principali rischi per la protezione dei dati personali sono i seguenti.
1. Inclusione di dati sensibili nei dataset
I dati usati per addestrare il modello possono includere accidentalmente informazioni personali o sensibili. In assenza di adeguata trasparenza l'interessato potrebbe non essere consapevole del problema.
Conseguenza: possibile violazione della privacy e del GDPR se i dati vengono riutilizzati senza base legale.
2. Output errati o distorti
L’LLM può fornire risposte inesatte, fuorvianti o discriminatorie.
Conseguenza: decisioni automatizzate basate su output scorretti possono violare i diritti dell’utente, influenzando negativamente la sua vita (es. reputazione, accesso a servizi).
3. Decisioni automatizzate senza supervisione umana
Sistemi LLM usati in contesti decisionali (es. finanziamenti, assunzioni) possono operare senza controllo umano.
Conseguenza: violazione dell’Art. 22 del GDPR, che vieta decisioni automatizzate significative senza possibilità di intervento umano.
4. Limitazione o negazione dei diritti dell’interessato
Gli utenti non possono esercitare pienamente i propri diritti (accesso, rettifica, cancellazione).
Conseguenza: violazione degli articoli 12-21 del GDPR; mancanza di trasparenza sull’uso dei dati e assenza di meccanismi di correzione.
5. Riutilizzo illecito dei dati personali
I dati degli utenti vengono utilizzati per finalità diverse da quelle dichiarate inizialmente.
Conseguenza: violazione del principio di limitazione della finalità (Art. 5 GDPR), con possibilità di profilazione o uso secondario non autorizzato.
6. Esposizione dei dati durante l’interazione
Durante l’utilizzo dell’LLM, l’utente può fornire dati sensibili che vengono registrati o loggati.
Conseguenza: rischio di data breach o uso improprio delle informazioni inviate (es. tramite chatbot o API)
7. Impossibilità di verificare dove e come sono trattati i dati
Mancanza di trasparenza sulla localizzazione e trattamento dei dati input dall’utente.
Conseguenza: l’utente perde controllo sui propri dati, che possono essere trattati in giurisdizioni non sicure dal punto di vista della protezione dati.
Rischi ulteriori per gli Agentic AI
1. Autonomia decisionale e dinamica
Gli agenti non seguono percorsi predefiniti, ma prendono decisioni dinamiche, il che rende meno prevedibile come e quando vengano trattati i dati personali. Questo aumenta il rischio di uso improprio o non intenzionale di dati sensibili .
2. Memoria persistente e gestione degli stati
Gli agenti spesso includono moduli di memoria che conservano informazioni sulle interazioni passate per migliorare il comportamento futuro. Questo può implicare la conservazione continua di dati personali, con implicazioni critiche per la privacy se non gestiti correttamente.
3. Integrazione con altri sistemi AI
Gli agenti possono combinare il LLM con visione artificiale, audio processing e accesso a strumenti esterni. Questa interoperabilità aumenta la quantità e la varietà di dati trattati, moltiplicando le superfici di attacco e i potenziali punti deboli.
4. Profilazione comportamentale
Grazie alla loro capacità di ragionamento e apprendimento iterativo, gli Agentic AI possono costruire profili dettagliati degli utenti sulla base delle interazioni, aumentando il rischio di sorveglianza continua o decisioni automatizzate potenzialmente discriminatorie.
La regolamentazione delle Autorità europee
Un parere (in tedesco) del Garante di Amburgo pubblicato nel luglio 2024, interviene nella spinosa questione del trattamento dei dati da parte della IA.
I punti rilevanti espressi sono i seguenti.
1 - La semplice memorizzazione di un LLM non costituisce un trattamento ai sensi dell'art. 4 n. 2 GDPR, in quanto negli LLM non vengono memorizzati dati personali. Se in un sistema di IA basato su LLM vengono trattati dati personali, tali operazioni di trattamento devono essere conformi ai requisiti del GDPR. Ciò vale in particolare per l'output di tale sistema di IA.
2 - A causa della mancata memorizzazione di dati personali nell'LLM, i diritti degli interessati previsti dal GDPR non possono avere come oggetto il modello stesso. Le richieste di accesso, cancellazione o rettifica possono tuttavia riferirsi almeno all'input e all'output di un sistema di IA del fornitore o gestore responsabile.
3 - L'addestramento di LLM con dati personali deve avvenire in conformità con la protezione dei dati, rispettando anche i diritti degli interessati. Un eventuale addestramento non conforme alla protezione dei dati non influisce però sulla liceità dell'utilizzo di tale modello in un sistema di IA.
Il parere, quindi, fa una distinzione tra il Sistema di IA e l'LLM che esso può contenere. Un LLM è solo una componente di un sistema di IA (come ad esempio un chatbot) e non può essere utilizzato proficuamente da solo. I sistemi di IA includono interfacce utente, filtri di input e output, e l'LLM. Gli input dell'utente ("prompt") vengono solitamente pre-elaborati (ad esempio tramite Retrieval Augmented Generation - RAG) prima che l'LLM li processi. Anche l'output diretto dell'LLM viene tipicamente filtrato prima di essere presentato all'utente. Il documento si concentra esclusivamente sulla questione se negli LLM siano memorizzati dati personali, non sull'intero sistema di IA.
Il parere chariisce che i LLM elaborano il linguaggio suddividendo i testi in "token", che sono frammenti più piccoli delle parole ma più grandi delle singole lettere. Ad esempio, la frase "Ist ein LLM personenbezogen?" viene suddivisa in 12 token. Questi token vengono mappati su valori numerici, che sono l'unica forma con cui si lavora all'interno del modello. I testi originali non sono più presenti, se non come frammenti sotto forma di questi token numerici e della loro ulteriore elaborazione come "embedding". Gli embedding rappresentano le relazioni apprese tra i token tramite pesi probabilistici, costituendo la "conoscenza" addestrata dell'LLM. L'output è anch'esso una sequenza di token, poi riconvertita in testo leggibile.
Nel modello non è presente il testo "Mia Müller" nella sua interezza. I singoli token come "M", "ia", "Mü", "ller" sono frammenti linguistici. Le relazioni vettoriali (embedding) indicano, ad esempio, che "Mü" è spesso seguito da "ller" in determinati contesti. Queste relazioni, definite da miliardi di parametri, costituiscono l'essenza del modello ma non rappresentano i testi stessi. I dati personali presenti nei dati di addestramento subiscono una trasformazione in rappresentazioni matematiche astratte, perdendo i legami specifici con le persone e conservando solo modelli e correlazioni generali. Sebbene i testi di addestramento non siano memorizzati nella loro forma originale e non possano essere ricostruiti integralmente dal modello, gli LLM generano output "nuovi" basati su probabilità, distinguendosi fondamentalmente dalla semplice memorizzazione o recupero di dati. La trasformazione dei dati di addestramento in embedding non è paragonabile alla crittografia, poiché quest'ultima è un processo reversibile con una chiave, mentre non esiste una "chiave" per ricostruire integralmente i dati di addestramento originali dagli embedding.
Quindi, l'Autorità di Amburgo conclude che un LLM non memorizza dati personali ai sensi dell'art. 4 n. 1, 2 GDPR. Sebbene attacchi specifici (privacy attacks) possano indurre LLM "fine-tuned" a riprodurre dati di addestramento, è dubbio che ciò implichi legalmente la memorizzazione di dati personali nell'LLM. La CGUE ha stabilito che per l'identificazione di una persona si possono considerare solo mezzi legali e che non richiedano uno sforzo sproporzionato.
I token e i loro embedding non hanno un contenuto informativo individuale né fungono da identificatori come quelli trattati dalla CGUE (es. indirizzi IP, numeri di identificazione). Essi rappresentano relazioni linguistiche astratte, non informazioni "su" persone fisiche specifiche.
I "privacy attacks" o "PII extraction" che riescono a estrarre informazioni richiedono competenze tecniche significative, risorse e spesso l'accesso ai dati di addestramento originali (raramente pubblici), il che potrebbe essere considerato uno sforzo sproporzionato e, in alcuni casi, un mezzo illegale.
Conseguenze Pratiche
Addestramento illecito: se un LLM sviluppato da terzi è stato addestrato illecitamente, ciò non influisce sulla liceità del suo utilizzo da parte di un'altra entità. La responsabilità per la conformità dell'addestramento (ad esempio: base giuridica inadeguata) ricade sullo sviluppatore.
Diritti degli interessati: poiché l'LLM non memorizza dati personali, non può essere oggetto dei diritti degli interessati (art. 12 ss. GDPR). Tali diritti (accesso, rettifica, cancellazione) si applicano invece all'input e all'output del sistema di IA che utilizza l'LLM.
Fine-tuning: le aziende che effettuano il fine-tuning di LLM con propri dati dovrebbero preferibilmente evitare dati personali, privilegiando dati sintetici (privacy by design). Se si usano dati personali, è necessaria una base giuridica e la garanzia dei diritti degli interessati.
Utilizzo locale di LLM: la semplice memorizzazione di un LLM su un server aziendale non è rilevante ai fini della protezione dei dati. Il sistema di IA deve comunque permettere l'esercizio dei diritti degli interessati per input e output. È necessario implementare misure per prevenire estrazioni di dati tramite attacchi.
Utilizzo di LLM di terzi (via API): il sistema di IA deve consentire l'esercizio dei diritti degli interessati per input e output. È importante scegliere fornitori con misure di protezione contro gli attacchi e chiarire le responsabilità (titolare, responsabile del trattamento, contitolarità) prima dell'uso.
Input e Output (utilizzo del modello): se dati personali compaiono nell'output di un sistema di IA basato su LLM e questo comporta una violazione (ad esempio, perché vengono trattati o pubblicati illecitamente), la responsabilità ricade sull'entità che utilizza il sistema di IA (cioè l'"utente" nel senso di azienda o autorità che lo impiega). Questa entità è responsabile di garantire la conformità al GDPR per i dati personali trattati attraverso il sistema, in particolare per l'input e l'output.
In conclusione, secondo il parere, il modello LLM stesso non memorizza dati personali. Pertanto, il modello in quanto tale non sarebbe la "fonte" diretta di una eventuale violazione nel senso di contenere intrinsecamente e in modo illecito dati personali una volta addestrato (anche se il suo addestramento potrebbe essere stato illecito). Un addestramento eventualmente non conforme alla protezione dei dati non si ripercuote sulla liceità dell'impiego di tale modello in un sistema di IA, ma la responsabilità per l'addestramento rimane dello sviluppatore.
Su questo parere si sono innestati ulteriori pareri delle Autorità europee.
Un parere dell'EDPB fornisce considerazioni generali di cui le autorità di protezione dei dati dovrebbero tenere conto quando valutano se l'interesse legittimo costituisca una base giuridica appropriata per il trattamento dei dati personali ai fini dello sviluppo e dell'implementazione di modelli di intelligenza artificiale. Un test in tre fasi aiuta a valutare l'utilizzo dell'interesse legittimo come base giuridica. L'EDPB fornisce l'esempio di una IA per migliorare la sicurezza informatica, che potrebbe basarsi sull'interesse legittimo come base giuridica, ma solo se il trattamento si dimostra strettamente necessario e il bilanciamento dei diritti è rispettato.
Il parere include anche una serie di criteri per aiutare le autorità di controllo a valutare se gli individui possano ragionevolmente aspettarsi determinati utilizzi dei propri dati personali. Questi criteri includono: se i dati personali siano o meno accessibili al pubblico, la natura del rapporto tra l'individuo e il titolare del trattamento, la natura del servizio, il contesto in cui i dati personali sono stati raccolti, la fonte da cui sono stati raccolti, i potenziali ulteriori utilizzi del modello e se gli individui siano effettivamente consapevoli che i loro dati personali sono online.
In generale l'EDPB ha sottolineato la necessità di una base giuridica appropriata per il trattamento dei dati personali nell'addestramento dell'IA, l'importanza delle valutazioni d'impatto sulla protezione dei dati (DPIA), la trasparenza verso gli interessati e il rispetto dei loro diritti.
In estrema sintesi i temi individuati sono:
- quali basi giuridiche (consenso, legittimo interesse, ecc.) possono essere invocate per raccogliere e utilizzare grandi quantità di dati, inclusi dati personali disponibili pubblicamente su internet, per addestrare i modelli di IA;
- come garantire che gli individui siano informati (trasparenza) su come i loro dati vengono utilizzati dai sistemi di IA e come possono esercitare i loro diritti (accesso, rettifica, cancellazione). In questo senso il parere dell'Autorità di Amburgo, ad esempio, sostiene che i diritti non possono applicarsi direttamente al modello LLM in sé, ma all'input e output del sistema di IA. Altre autorità potrebbero avere sfumature diverse su come questi diritti debbano essere garantiti nella pratica;
- la questione dell'accuratezza dell'output, e cioè la tendenza degli LLM a generare informazioni errate o inventate ("allucinazioni"), che potrebbero riguardare persone identificabili;
- forte richiamo all'integrazione dei principi di Privacy by Design e by Default dei sistemi di IA (il parere dell'Autorità di Amburgo suggerisce, ad esempio, di preferire dati sintetici per il fine-tuning, ove possibile).
In generale, le autorità di protezione dei dati stanno cercando di bilanciare la promozione dell'innovazione tecnologica con la salvaguardia dei diritti fondamentali, interpretando e applicando i principi del GDPR in un contesto tecnologico in rapida evoluzione. L'AI Act europeo, una volta pienamente applicabile, fornirà un ulteriore quadro normativo specifico per l'IA, che si integrerà con il GDPR.