La guida per anonimizzare i dati e usare ChatGPT e l’IA in tranquillità

L’intelligenza artificiale sta trasformando il modo in cui le aziende operano e interagiscono con enormi volumi di dati. Tuttavia, con questi progressi, emergono sfide significative riguardanti la privacy e la sicurezza dei dati. Solo alcune soluzioni, infatti, permettono di avere un’elevata garanzia di privacy e riservatezza, evitando che i dati personali e riservati possano essere involontariamente utilizzati per addestrare modelli di linguaggio.

Perciò, non sono poche le aziende che hanno vietato l’uso dell’IA generativa ai propri dipendenti, con la speranza di evitare che informazioni riservate entrino a far parte dello sterminato patrimonio di conoscenze di un motore linguistico.

La sfida tuttavia è duplice: da un lato infatti c’è una forte pressione per poter sfruttare le potenzialità offerte dagli LLM, per guadagnarne in efficienza ed efficacia; dall’altro, è necessario assicurare che l’uso di questi strumenti non comprometta la sicurezza e la riservatezza dei dati sensibili.

Questo articolo vuole essere una guida per esplorare le modalità con cui anche coloro che non hanno accesso a soluzioni personalizzate o protette possono utilizzare gli LLM in modo sicuro, delineando strategie e buone pratiche per un utilizzo etico e conforme alle normative sulla privacy.

Quali sono i dati sensibili e come riconoscerli

I dati sensibili comprendono una vasta gamma di informazioni che, se divulgate in modo inappropriato, possono compromettere la privacy individuale o la sicurezza aziendale. Alcuni esempi sono:

  • Informazioni personali identificabili (PII): questi sono dati che possono essere usati da soli o con altre informazioni per identificare, contattare o localizzare una singola persona. Esempi includono nomi, numeri di previdenza sociale, date di nascita, indirizzi email e indirizzi fisici.
  • Dati finanziari: informazioni come numeri di conto bancario, dati di carte di credito, e dettagli di investimenti che sono cruciali per la privacy finanziaria delle persone.
  • Informazioni sanitarie: dettagli medici e di salute che sono protetti da rigorose normative come il GDPR nell’Unione Europea e l’HIPAA negli Stati Uniti.

Una particolare e importantissima categoria di dati sono quelli che ricadono nelle informazioni aziendali riservate: segreti commerciali, piani strategici, dati di ricerca e sviluppo, e altre informazioni sensibili che, se rivelate, rischiano di danneggiare la competitività o la sicurezza di un’azienda.

Ogni azienda cerca infatti di tutelare asset importantissimi come i propri segreti industriali, il proprio know-how e la propria conoscenza specialistica per mantenere il proprio vantaggio competitivo sul mercato, e alcune delle sfide principali di questo momento storico riguardano proprio la capacità di farlo in rapporto all’IA generativa.

Principi di Anonimizzazione

L’anonimizzazione dei dati è un processo che rimuove o modifica le informazioni sensibili in modo da proteggere la privacy e la sicurezza delle informazioni personali e/o aziendali riservate. I principi chiave dell’anonimizzazione includono:

  1. Rimozione di identificatori diretti: questo include eliminare informazioni che possono identificare direttamente un individuo o un’entità, come nomi, indirizzi email, numeri di telefono, o numeri di identificazione unici.
  2. Minimizzazione dei dati: limitare la quantità di informazioni raccolte e conservate al minimo necessario.
  3. Aggregazione: combinare i dati in modo che le informazioni siano presentate in gruppi o categorie, riducendo così il rischio di identificazione.

Metodi Pratici

Ecco alcune tecniche per l’anonimizzazione:

  1. Pseudonimizzazione: sostituire i dati identificativi con pseudonimi o codici. Sebbene questa tecnica non rimuova le informazioni identificative, le rende meno accessibili.
  2. Oscuramento (Masking): questo metodo consiste nel coprire parti di documenti o immagini che contengono informazioni sensibili. Ad esempio, nelle immagini, si possono usare rettangoli neri per nascondere i volti delle persone o altri dettagli identificativi. Nei documenti, si possono oscurare nomi, numeri di previdenza sociale, o altri dati sensibili.
  3. Generalizzazione: in questo approccio, i dettagli specifici vengono resi più generali. Ad esempio, invece di indicare la data di nascita esatta, si potrebbe indicare solo l’anno o il mese. Questo riduce la precisione dei dati ma preserva una certa quantità di informazioni utili.
  4. Distorsione dei dati: modificare leggermente i dati (ad esempio, alterando le date o i valori numerici) per prevenire l’identificazione diretta, mantenendo al contempo l’uso statistico dei dati.
  5. Cancellazione di dati specifici: rimuovere selettivamente dettagli sensibili da un insieme di dati, come specifici commenti o note che potrebbero contenere informazioni identificative.

Un esempio pratico

Prima

Prendiamo ad esempio un report dettagliato su un progetto, che include informazioni come “Progetto Sharazad”, guidato da Giovanni Bianchi, budget di 50.000 euro, partner chiave: ABC Tech e XYZ Innovations, con lancio previsto per il 15 gennaio 2024”. 

Dopo la pseudonimizzazione 

Il progetto potrebbe diventare “Progetto 001”, il nome del responsabile potrebbe essere cambiato in “Responsabile Progetto 001”, il budget potrebbe essere indicato in termini percentuali rispetto al budget totale dell’azienda, i nomi dei partner potrebbero essere sostituiti con “Partner Principale 1” e “Partner Principale 2”, e la data di lancio potrebbe essere indicata come “Q1 2024”.

Dopo l’oscuramento

Con l’oscuramento parti specifiche vengono coperte o oscurate. Quindi il nome del responsabile del progetto “Giovanni Bianchi” viene coperto con un rettangolo nero o una banda opaca, il valore del budget viene oscurato, i nomi dei partner “ABC Tech” e “XYZ Innovations” vengono anch’essi coperti, e la data di lancio “15 gennaio 2024” viene oscurata.

Dopo la generalizzazione

Nel report, i dettagli specifici vengono resi più generali. Ad esempio il nome del progetto potrebbe essere descritto come “un progetto di sviluppo tecnologico”, ill nome del responsabile potrebbe essere sostituito con “responsabile del team di sviluppo”, i partner potrebbero essere menzionati come “partner principali nel settore tecnologico” e la data di lancio potrebbe essere generalizzata come “metà gennaio 2024”.

Dopo la distorsione dei dati

Nel report, alcune cifre e date vengono leggermente modificate. Il budget di “50.000 euro” potrebbe essere alterato a “49.000 euro” o “51.000 euro” e la data di lancio “15 gennaio 2024” potrebbe essere modificata in “fine dicembre 2023” o “inizio febbraio 2024”.

Dopo la cancellazione di dati specifici 

Qualsiasi riferimento diretto a persone o organizzazioni specifiche, come il nome “Giovanni Bianchi” o i nomi dei partner, potrebbe essere eliminato, così come eventuali note dettagliate sui piani di sviluppo del prodotto e strategie di mercato.

Attenzione alla combinazione dei dati

Nell’era dell’analisi dei dati e dell’intelligenza artificiale, la protezione dei dati sensibili non si limita solo alla loro rimozione diretta. È fondamentale considerare anche come le combinazioni di dati apparentemente non sensibili possano rivelare informazioni che erano intese a rimanere anonime o non identificabili:

  • Informazioni indirette: anche se i dati sono stati anonimizzati rimuovendo identificatori diretti, la combinazione di set di dati diversi può portare alla re-identificazione di individui o entità. Ad esempio, una combinazione di dati demografici, geografici e comportamentali potrebbe rivelare l’identità di una persona nonostante l’assenza di un nome o di un numero di identificazione diretto.
  • Dati pubblicamente disponibili: l’incrocio dei dati anonimizzati con altre fonti di dati pubblicamente disponibili (come i social media o i registri pubblici) può aumentare il rischio di re-identificazione.

L’IA può superare le azioni di anonimizzazione?

Gli algoritmi avanzati, come quelli utilizzati nei modelli di intelligenza artificiale come GPT, sono particolarmente abili nell’identificare questi schemi nascosti. Possono analizzare grandi quantità di dati a una velocità e con una profondità che vanno ben oltre le capacità umane. Questa capacità può essere utilizzata per scoprire correlazioni inattese e rivelare informazioni sensibili nascoste all’interno di dataset apparentemente anonimi. Perciò in questi casi è meglio adottare il principio di cautela, rimuovendo i dati non strettamente funzionali al nostro scopo.

Strategie Preventive

Per mitigare questi rischi è fondamentale adottare una serie di strategie preventive:

  1. Valutazione del rischio dei dati combinati: prima di condividere dataset, è opportuno valutare il rischio che le combinazioni di dati non sensibili possano rivelare informazioni sensibili.
  2. Classificazione dei dati: implementare un sistema di classificazione dei dati che identifichi i livelli di sensibilità. Questo può variare da “pubblico” a “molto riservato”.
  3. Tecniche di aggregazione e mascheramento: tecniche come l’aggregazione dei dati, che raggruppa le informazioni in categorie più ampie, e il mascheramento, che nasconde o altera parti di dati, permettono di ridurre il rischio di riconoscimento indiretto.
  4. Revisione continua: monitorare e rivedere regolarmente i dataset per nuovi rischi è essenziale, soprattutto in seguito a aggiornamenti o cambiamenti nelle tecnologie di analisi dei dati

In caso di dubbi

Consultare degli Esperti

Quando sorgono dubbi o incertezze riguardo alla protezione dei dati, il primo passo dovrebbe essere la consultazione di esperti nel campo. Questi esperti possono fornire consigli specifici e aggiornati, aiutando le organizzazioni a navigare nel complesso panorama legale e tecnico relativo alla protezione dei dati.

Valutare i Rischi

Un’attenta valutazione dei rischi è fondamentale quando si presentano dubbi sulla gestione dei dati. Questo processo include l’analisi delle potenziali vulnerabilità, la valutazione della probabilità e dell’impatto di eventuali violazioni dei dati, e la determinazione delle misure di mitigazione più efficaci. Una valutazione dei rischi ben eseguita può aiutare a prioritizzare le azioni e assicurare che le risorse siano allocate in modo efficiente.

Monitorare Continuamente

Infine, il monitoraggio continuo dei sistemi e delle pratiche di gestione dei dati è essenziale. Le organizzazioni dovrebbero implementare sistemi per il monitoraggio in tempo reale delle attività di rete e dei sistemi di gestione dei dati, in modo da poter rilevare rapidamente e rispondere a qualsiasi attività sospetta o potenziale violazione dei dati.

By stefanoschiavo