27 novembre 2025 · 4 min di lettura

LLM e privacy: proteggere i dati degli utenti quando usi l'AI

Hai integrato un LLM nel tuo software, o stai per farlo, e a un certo punto arriva la domanda scomoda: che fine fanno i dati degli utenti che passano dentro quei prompt? È la domanda giusta, perché tra LLM e privacy il confine tra un uso corretto e una violazione del GDPR passa da scelte tecniche precise, non da dichiarazioni di principio. Vediamo quali.

Il principio base: minimizza quello che mandi al modello

La regola più efficace è anche la più semplice: il modello deve ricevere solo i dati necessari al compito. Prima di costruire il prompt, chiediti cosa serve al modello per rispondere bene. Nella maggior parte dei casi la risposta non include nome, email, telefono o codice fiscale dell'utente.

In pratica, nei software che sviluppiamo applichiamo alcuni accorgimenti ricorrenti:

pseudonimizzazione prima della chiamata: i dati identificativi si sostituiscono con segnaposto ("CLIENTE_1") prima di inviare il testo al modello, e si reinseriscono nella risposta;
filtri sui campi: dal contesto passato al modello si escludono per costruzione i campi sensibili del database, così l'errore umano non basta a farli uscire;
attenzione ai testi liberi: note, email e messaggi degli utenti possono contenere dati personali ovunque; se il caso d'uso li richiede, servono filtri di rilevamento o avvisi espliciti a chi scrive.

La minimizzazione conviene due volte: riduce il rischio legale e riduce i token, cioè i costi.

Cloud o on-premise: i criteri per scegliere

La scelta tra API cloud e modello installato sui tuoi server non è ideologica, dipende dai dati trattati e dalle risorse disponibili.

Le API dei grandi provider sono la via più rapida e danno accesso ai modelli migliori. Sul fronte privacy, i punti da verificare prima di firmare sono concreti: se i tuoi dati vengono usati per addestrare i modelli (i piani business seri lo escludono, ma va letto il contratto), dove vengono elaborati e conservati, per quanto tempo il provider conserva i log delle richieste, e la disponibilità di un accordo di trattamento dati (DPA) da allegare ai tuoi adempimenti.

Un modello open eseguito sulla tua infrastruttura ti dà il controllo completo: i dati non lasciano i tuoi sistemi. Il prezzo è la complessità: server con GPU adeguate, competenze per gestirli, qualità del modello spesso inferiore ai migliori servizi cloud. Ha senso quando tratti dati particolarmente delicati, come quelli sanitari o giudiziari, quando i volumi giustificano l'investimento o quando policy interne o di settore vietano l'uscita dei dati.

Esiste anche la via di mezzo: usare il cloud per i compiti su dati non sensibili e tenere in casa solo l'elaborazione che tocca dati critici. È spesso il compromesso migliore per una PMI.

Consensi, informative e basi giuridiche

L'integrazione di un LLM che tratta dati personali va inquadrata anche sul piano documentale, in collaborazione con chi segue la tua compliance. I punti da mettere in fila:

informativa aggiornata: se i dati degli utenti passano da un fornitore AI, il fornitore va indicato tra i destinatari o i responsabili del trattamento;
base giuridica: chiarisci su quale base tratti i dati per la funzione AI, e se serve un consenso specifico raccoglilo separatamente, senza nasconderlo nelle condizioni generali;
decisioni automatizzate: se l'output del modello incide su decisioni rilevanti per la persona, il GDPR prevede tutele specifiche, a partire dalla possibilità di un intervento umano;
registro dei trattamenti: la funzione AI è un trattamento come gli altri e va censita.

Un consiglio dalla pratica: scrivi nero su bianco, anche in una pagina interna, quali dati entrano nel modello, con quale fornitore e con quali filtri. Quando un cliente o il Garante fanno domande, avere la risposta pronta cambia il tono della conversazione.

Log, retention e il lato oscuro del debug

C'è un punto che sfugge quasi sempre: i log. Per fare debug è naturale salvare prompt e risposte, ma quei log contengono esattamente i dati che stai cercando di proteggere. Definisci da subito cosa logghi (meglio metadati e identificativi di richiesta che testi integrali), per quanto tempo conservi i log e chi può leggerli. Lo stesso vale per gli strumenti di monitoraggio di terze parti: ogni servizio che vede i prompt è un destinatario di dati in più da censire.

Infine, testa il sistema anche dal punto di vista dell'attaccante: la prompt injection può portare un modello a rivelare dati di contesto che non doveva esporre. Limita ciò che il modello può vedere per costruzione, perché le istruzioni difensive nel prompt non bastano.

Integrare l'AI senza scorciatoie rischiose

Sviluppiamo software su misura con funzioni AI integrate, e la protezione dei dati fa parte del progetto fin dall'architettura: minimizzazione, scelta dell'infrastruttura, gestione di log e consensi. Se vuoi portare un LLM dentro il tuo prodotto o il tuo gestionale senza esporre i dati dei tuoi utenti, prenota una call gratuita: analizziamo il tuo caso e ti proponiamo un'architettura sostenibile.

LLM e privacy: proteggere i dati degli utenti quando usi l'AI

Il principio base: minimizza quello che mandi al modello

Cloud o on-premise: i criteri per scegliere

Consensi, informative e basi giuridiche

Log, retention e il lato oscuro del debug

Integrare l'AI senza scorciatoie rischiose

Articoli correlati

Privacy e cookie policy per siti italiani: cosa serve nel 2025

Claude Fable 5 e Mythos 5: cosa cambia con la famiglia Claude 5

Fine-tuning o RAG? Come dare i tuoi dati a un modello AI