Dicembre 6, 2023

Conca Ternana Oggi

Ultime notizie e rapporti economici sull'Italia.

Un nuovo modo di guardare alla privacy dei dati | Notizie del MIT

Un nuovo modo di guardare alla privacy dei dati |  Notizie del MIT

Immagina che un team di scienziati abbia sviluppato un modello di apprendimento automatico in grado di prevedere se un paziente ha il cancro dalle immagini della scansione polmonare. Vogliono condividere questo modello con gli ospedali di tutto il mondo in modo che i medici possano iniziare a usarlo nella diagnosi.

ma c’è un problema. Per insegnare al loro modello come prevedere il cancro, gli hanno mostrato milioni di immagini di scansioni polmonari reali, un processo chiamato addestramento. Questi dati sensibili, ora codificati nei meccanismi interni del modello, possono essere estratti da un agente malintenzionato. Gli scienziati possono impedirlo aggiungendo rumore, o casualità più generale, al modello che rende più difficile per un avversario indovinare i dati originali. Tuttavia, la turbolenza riduce la precisione del modello, quindi meno rumore si può aggiungere, meglio è.

I ricercatori del MIT hanno sviluppato una tecnologia che consente all’utente di aggiungere il minor rumore possibile, garantendo al contempo la protezione dei dati sensibili.

I ricercatori hanno creato una nuova misura di specificità, che hanno chiamato la specificità corretta più probabile (PAC), e hanno costruito un quadro basato su questa misura che può determinare automaticamente la quantità minima di rumore che deve essere aggiunta. Inoltre, questo framework non ha bisogno di conoscere il funzionamento interno del modello o il suo processo di addestramento, il che lo rende facile da usare per diversi tipi di modelli e applicazioni.

In molti casi, i ricercatori hanno dimostrato che la quantità di rumore necessaria per proteggere i dati sensibili dagli avversari è molto inferiore con la specificità PAC rispetto ad altri approcci. Ciò può aiutare gli ingegneri a creare modelli di machine learning che nascondono in modo dimostrabile i dati di addestramento, pur mantenendo la precisione nelle impostazioni del mondo reale.

READ  Super Mario 64 e altro ancora dalla famosa offerta di Charles Martinet

“La privacy del PAC sfrutta l’incertezza o l’entropia dei dati sensibili in modo significativo e questo ci consente, in molti casi, di aggiungere meno rumore. Questo framework ci consente di comprendere le caratteristiche dell’elaborazione arbitraria dei dati e di privatizzarli automaticamente senza modifiche artificiali Siamo entusiasti della promessa di questa tecnologia”, afferma Srini Devadas, professore di ingegneria elettrica di Edwin Sibley Webster e coautore di un nuovo articolo sulla specificità del PAC.

Devadas ha scritto il documento con l’autore principale Hanshin Xiao, uno studente laureato in ingegneria elettrica e informatica. La ricerca sarà presentata all’International Crypto Conference (Crypto 2023).

Definizione di riservatezza

La domanda chiave nella privacy dei dati è: quanti dati sensibili può recuperare un avversario da un modello di apprendimento automatico con l’aggiunta di rumore?

La privacy differenziale, una delle definizioni comuni di privacy, afferma che la privacy viene raggiunta se l’avversario che osserva il modello emesso non può dedurre se i dati di un individuo arbitrario vengono utilizzati nell’elaborazione dell’addestramento. Ma impedire a un avversario di distinguere tra l’utilizzo dei dati spesso richiede grandi quantità di rumore per mascherarlo. Questo rumore riduce la precisione del modello.

La privacy del PAC affronta il problema in modo leggermente diverso. Descrive quanto sia difficile ricostruire qualsiasi pezzo di dati sensibili campionati o generati casualmente dopo aver aggiunto rumore, piuttosto che concentrarsi esclusivamente sul problema della distinguibilità.

Ad esempio, se i dati sensibili sono immagini di volti umani, la specificità differenziale si concentrerà sul fatto che un avversario possa dire se il volto di qualcuno è nel set di dati. La specificità PAC, d’altra parte, può considerare se un avversario può estrarre una sagoma – un’approssimazione – che qualcuno può identificare come il volto di un particolare individuo.

READ  iPhone e Samsung Galaxy battuti dal design dello smartphone "Santo Graal"

Una volta determinata la definizione di specificità del PAC, i ricercatori hanno creato un algoritmo che indicava automaticamente all’utente quanto rumore aggiungere a un modello per impedire all’avversario di ricostruire con sicurezza un’approssimazione ravvicinata dei dati sensibili. Xiao afferma che questo algoritmo garantisce la privacy anche se l’avversario ha una potenza di calcolo infinita.

Per trovare la quantità ottimale di rumore, l’algoritmo di specificità PAC si basa sull’incertezza, o entropia, nei dati originali dal punto di vista dell’avversario.

Questa tecnologia automatizzata campiona casualmente da una distribuzione di dati o da un pool di dati di grandi dimensioni ed esegue un algoritmo di apprendimento automatico che addestra l’utente su tali dati secondari per produrre un modello appreso. Lo fa più volte in diversi sottocampioni e confronta la varianza tra tutti gli output. Questa varianza determina la quantità di rumore da aggiungere: una varianza minore significa che è necessario meno rumore.

Vantaggi dell’algoritmo

A differenza di altri approcci alla privacy, l’algoritmo di privacy PAC non ha bisogno di conoscere le procedure interne del modello o il processo di addestramento.

Quando si implementa un PAC per la privacy, l’utente può inizialmente specificare il livello di attendibilità richiesto. Ad esempio, un utente potrebbe volere la certezza che un avversario non sarà sicuro più dell’1% di aver ricostruito con successo dati sensibili entro il 5% del loro valore effettivo. L’algoritmo di privacy di PAC indica automaticamente all’utente la quantità ottimale di rumore da aggiungere al campione di output prima che venga condiviso pubblicamente, al fine di raggiungere questi obiettivi.

“Il rumore è ottimale, nel senso che se aggiungi meno di quanto ti abbiamo detto, tutte le scommesse potrebbero essere perse. Ma l’effetto dell’aggiunta di rumore ai parametri della rete neurale è complesso e non facciamo alcuna promessa sulle strutture ridotte il modello potrebbe sperimentare il rumore aggiuntivo”, afferma Xiao.

READ  Stiamo lavorando su altri due giochi per controller

Ciò indica uno dei limiti della specificità del PAC: la tecnologia non dice all’utente quanta accuratezza perderà il modello una volta aggiunto il rumore. La specificità del PAC implica anche l’addestramento iterativo del modello di machine learning su molti sottocampioni di dati, quindi può essere computazionalmente costoso.

Per migliorare la specificità del PAC, un approccio consiste nel modificare il processo di formazione degli utenti di machine learning in modo che sia più stabile, il che significa che il modello di output che produce non cambia molto quando i dati di input vengono compilati da un set di dati. Questa stabilizzazione creerà variazioni minori tra le uscite dei sottocampioni, quindi non solo l’algoritmo di specificità PAC dovrà essere eseguito meno volte per determinare la quantità ottimale di rumore, ma dovrà anche aggiungere meno rumore.

Un ulteriore vantaggio dei modelli Stabler, aggiunge Devadas, è che spesso hanno un errore di generalizzazione inferiore, il che significa che possono fare previsioni più accurate su dati mai visti prima, una situazione vantaggiosa per tutti tra apprendimento automatico e specificità.

“Nei prossimi anni vorremmo approfondire questo rapporto tra stabilità e privacy, e il rapporto tra privacy ed errore di generalizzazione. Stiamo bussando alla porta qui, ma non è ancora chiaro dove sia la porta conduce”, dice.

Questa ricerca è finanziata in parte da DSTA Singapore, Cisco Systems, Capital One e MathWorks Fellowship.