Intelligenza Artificiale (IA) e rischi per la privacy
Featured

Intelligenza Artificiale (IA) e rischi per la privacy

L'intelligenza artificiale (IA) è la capacità di un sistema artificiale di simulare una forma di intelligenza. Notoriamente in questa definizione vengono inclusi molti sistemi che simulano, appunto, forme di intelligenza umana, tra i quali nei ultimi anni sono emersi i LLM, cioè i Large Language Model

I LLM rappresentano un progresso trasformativo nell'intelligenza artificiale, sono modelli di uso generale che vengono addestrati su ampi set di dati e che hanno molteplici applicazioni, spaziando dalla generazione di testo all'assistenza alla codifica, all'analisi dei sentimenti e altro ancora. Alcuni LLM sono multimodali, cioè in grado di elaborare e generare dati come immagini, audio, video. Attualmente hanno stabilito nuovi standard per l'elaborazione del linguaggio naturale (NLP). 

I LLM operano tramite vari passaggi (lifecycle), ciascuno dei quali può comportare rischi per la privacy. Durante la fase di addestramento, i dati utilizzati (dataset) possono contenere dati personali. Nella fase di inferenza, cioè la fase nella quale il modello genera l'output in risposta al prompt dell'utente, gli output generati potrebbero rivelare accidentalmente dati personali o anche contenere disinformazione. Infine, nei feedback loop, fase nella quale le interazioni degli utenti vengono riutilizzate per migliorare o aggiornare il modello, le interazioni possono essere memorizzate senza sufficienti garanzie di tutela della privacy.

Gli Agentic AI (intelligenza artificiale agentica) sono sistemi autonomi costruiti sopra i LLM, in grado di svolgere compiti complessi con un comportamento proattivo e orientato agli obiettivi. A differenza dei semplici workflow, gli agenti possono pianificare, prendere decisioni, imparare dall'ambiente ed eseguire azioni in modo dinamico. La loro architettura modulare include componenti per la percezione, il ragionamento, la pianificazione, la memoria e l'azione. Gli Agentic AI presentano, ovviamente, tutti i rischi già presenti nei LLM, ma essendo proattivi piuttosto che reattivi, questo incrementa in modo significativo i rischi per la privacy. Quindi gli agenti presentano rischi ulteriori. 

 

Modelli Open e Closed

Un aspetto rilevante per valutare i rischi associati ai vari modelli e se è Open o Closed. I modelli chiusi sono modelli proprietari che non forniscono accesso pubblico ai loro pesi o al codice sorgente e l'interazione con il modello è limitata, mentre i modelli aperti sono resi pubblici completamente o parzialmente ( solitamente i dati di training). I pesi indicano i parametri utilizzati per l'addestramento. che, se disponibili al pubblico, consentono l'ispezione, la messa a punto o l'integrazione in altri sistemi. Si tratta di una classificazione indipendente dalla licenza, che può essere open source se il modello garantisce a tutti la libertà di utilizzare, studiare, modificare e distribuire il modello. 

Modelli Closed e Closed Weights (Chiusi):
- mancanza di trasparenza esterna, gli utenti si affidano completamente alle misure di privacy del fornitore, rendendo difficile verificare in modo indipendente la conformità alle normative sulla protezione dei dati. Non c'è accesso pubblico ai pesi del modello o al codice sorgente, e l'interazione è solitamente limitata a un'API o a un abbonamento. 

  
Modelli Open e Open Weights (Aperti):
- rischio di esposizione dei dati personali e violazioni della sicurezza, se i dati di addestramento contengono informazioni sensibili o dannose, c'è il rischio che queste vengano esposte. I parametri del modello (pesi) sono pubblicamente disponibili, permettendo ispezione e modifica.  
- accesso parziale e scrutinio limitato, anche se "aperti", questi modelli potrebbero non rendere disponibile tutto (spesso mancano i dati di addestramento specifici o sono rilasciati sotto licenze specifiche). L'accesso parziale può impedire un'analisi completa dei dati di addestramento del modello e delle potenziali vulnerabilità per la privacy.  

 

Rischi per la privacy dei LLM

I principali rischi per la protezione dei dati personali sono i seguenti. 

1. Inclusione di dati sensibili nei dataset
I dati usati per addestrare il modello possono includere accidentalmente informazioni personali o sensibili. In assenza di adeguata trasparenza l'interessato potrebbe non essere consapevole del problema. 
Conseguenza: possibile violazione della privacy e del GDPR se i dati vengono riutilizzati senza base legale. 

2. Output errati o distorti
L’LLM può fornire risposte inesatte, fuorvianti o discriminatorie.
Conseguenza: decisioni automatizzate basate su output scorretti possono violare i diritti dell’utente, influenzando negativamente la sua vita (es. reputazione, accesso a servizi).

3. Decisioni automatizzate senza supervisione umana
Sistemi LLM usati in contesti decisionali (es. finanziamenti, assunzioni) possono operare senza controllo umano. 
Conseguenza: violazione dell’Art. 22 del GDPR, che vieta decisioni automatizzate significative senza possibilità di intervento umano.

4. Limitazione o negazione dei diritti dell’interessato
Gli utenti non possono esercitare pienamente i propri diritti (accesso, rettifica, cancellazione).
Conseguenza: violazione degli articoli 12-21 del GDPR; mancanza di trasparenza sull’uso dei dati e assenza di meccanismi di correzione.

5. Riutilizzo illecito dei dati personali
I dati degli utenti vengono utilizzati per finalità diverse da quelle dichiarate inizialmente.
Conseguenza: violazione del principio di limitazione della finalità (Art. 5 GDPR), con possibilità di profilazione o uso secondario non autorizzato.

6. Esposizione dei dati durante l’interazione
Durante l’utilizzo dell’LLM, l’utente può fornire dati sensibili che vengono registrati o loggati. 
Conseguenza: rischio di data breach o uso improprio delle informazioni inviate (es. tramite chatbot o API)

7. Impossibilità di verificare dove e come sono trattati i dati
Mancanza di trasparenza sulla localizzazione e trattamento dei dati input dall’utente.
Conseguenza: l’utente perde controllo sui propri dati, che possono essere trattati in giurisdizioni non sicure dal punto di vista della protezione dati. 

 

Rischi ulteriori per gli Agentic AI

1. Autonomia decisionale e dinamica
Gli agenti non seguono percorsi predefiniti, ma prendono decisioni dinamiche, il che rende meno prevedibile come e quando vengano trattati i dati personali. Questo aumenta il rischio di uso improprio o non intenzionale di dati sensibili .

2. Memoria persistente e gestione degli stati
Gli agenti spesso includono moduli di memoria che conservano informazioni sulle interazioni passate per migliorare il comportamento futuro. Questo può implicare la conservazione continua di dati personali, con implicazioni critiche per la privacy se non gestiti correttamente.

3. Integrazione con altri sistemi AI
Gli agenti possono combinare il LLM con visione artificiale, audio processing e accesso a strumenti esterni. Questa interoperabilità aumenta la quantità e la varietà di dati trattati, moltiplicando le superfici di attacco e i potenziali punti deboli.

4. Profilazione comportamentale
Grazie alla loro capacità di ragionamento e apprendimento iterativo, gli Agentic AI possono costruire profili dettagliati degli utenti sulla base delle interazioni, aumentando il rischio di sorveglianza continua o decisioni automatizzate potenzialmente discriminatorie.