privacy-filter

OpenAI Privacy Filter

GitHub Scarica ZIP

218fork

2.5kwatcher

32issue

Python

Analisi AI · Italiano

openai · gpt-4o-mini

Sintesi

OpenAI Privacy Filter è un modello di classificazione token bidirezionale progettato per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. Ideale per flussi di lavoro di sanificazione dati ad alta velocità, può essere eseguito in locale, è veloce, sensibile al contesto e facilmente adattabile tramite fine-tuning. Supporta l'analisi di testi molto lunghi con una finestra di contesto fino a 128.000 token e consente di regolare dinamicamente precisione e richiamo. È rilasciato con licenza permissiva Apache 2.0, ideale anche per usi commerciali.

Casi d'uso

→Sanificazione automatica di grandi archivi testuali per rimuovere dati personali prima di analisi dati o condivisione.
→Integrazione in workflow aziendali on-premises per conformità alla privacy e GDPR.
→Supporto alla revisione umana veloci in settori regolamentati come medico e legale.
→Personalizzazione del modello via fine-tuning per adattarsi a specifiche definizioni di dati sensibili di un'organizzazione.
→Riduzione del rischio di esposizione accidentale di PII in ambienti di sviluppo e test software.

Idee SaaS / Business

Piattaforma SaaS di Data Privacy Filtering

Servizio cloud per sanificare testi e documenti caricati dagli utenti, con personalizzazione avanzata e reportistica sugli interventi di mascheratura.

API On-Premise per Rilevamento PII

Soluzione API privata da integrare nei sistemi aziendali per identificare e mascherare automaticamente PII in tempo reale, mantenendo dati in locale.

Tool di Compliance GDPR con Fine-Tuning Personalizzato

Piattaforma che consente a imprese di caricare proprie policy e dati per fine-tuning del modello e verifica automatica di compliance con le norme sulla privacy.

Target utenti

Team di data science e privacy, sviluppatori software, e gruppi IT di aziende che necessitano di una soluzione efficiente e personalizzabile per il rilevamento e mascheratura di dati personali, specialmente in ambienti on-premises e con requisiti di sicurezza elevati.

Categoria

Python, Transformer, Mixture-of-Experts

Monetizzazione

Modello di monetizzazione basato su licenze commerciali per imprese che richiedono supporto, integrazione avanzata e aggiornamenti, oltre a servizi di consulenza per fine-tuning personalizzati e ambienti on-premises. Possibile offerta SaaS con piani a consumo o abbonamento per l'uso cloud.

Licenza

Apache License 2.0

Trend: Il progetto risponde al crescente bisogno di privacy e compliance automatizzata con un modello moderno, efficiente e adattabile, con forte adozione e interesse nel settore.

README · tradotto in italiano

OpenAI Privacy Filter

OpenAI Privacy Filter è un modello di classificazione token bidirezionale per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. È pensato per flussi di lavoro di sanificazione dati ad alta velocità dove i team necessitano di un modello da eseguire in locale, veloce, consapevole del contesto e facilmente adattabile.

Il filtro è pre-addestrato in modalità autoregressiva, partendo da un checkpoint con architettura simile a gpt-oss ma di dimensioni minori. Successivamente, il modello viene convertito in un classificatore token bidirezionale secondo una tassonomia di etichette per la privacy, e post-addestrato con una perdita di classificazione supervisionata. A differenza della generazione token per token, questo modello etichetta la sequenza in un'unica passata, decodificando poi gli span con una procedura di Viterbi vincolata. Per ogni token in input il modello predice una distribuzione di probabilità su 8 categorie di output descritte più avanti.

Caratteristiche principali

Caratteristica	Descrizione
Licenza Apache 2.0	Permissiva, adatta a sperimentazioni, personalizzazioni e distribuzioni commerciali
Dimensioni contenute	1,5 miliardi di parametri totali, 50 milioni attivi, eseguibile su laptop o browser web
Fine-tuning semplice	Adattabile a distribuzioni dati specifiche con poche risorse
Finestra di contesto lunga	Supporta testi fino a 128.000 token senza chunking
Controllo a runtime	Bilanciamento precisione/richiamo e lunghezza degli span rilevati configurabili

Questo Repository

Contiene codice locale, CLI e asset di esempio per eseguire, valutare e rifinire i checkpoint di Privacy Filter, destinato a team che vogliono gestire il modello nel proprio ambiente.

Risorse: Licenza e Politica sulla Sicurezza.

Come usarlo

Installare il pacchetto localmente:

pip install -e .

Eseguire la redazione one-shot (di default cerca il modello nella cartella indicata da OPF_CHECKPOINT o ~/.opf/privacy_filter, scaricandolo se mancante):

opf "Alice è nata il 1990-01-02."

Per CPU usare:

opf --device cpu "Alice è nata il 1990-01-02."

Per specificare checkpoint:

opf --checkpoint /percorso/del/checkpoint "Alice è nata il 1990-01-02."

Per redigere un intero file:

opf -f /percorso/del/file

Si supportano anche pipeline con pipe:

cat /percorso/del/file | grep -e 'pattern' | opf

Modalità interattiva (default senza input) con output JSON strutturati e anteprime colorate nei terminali supportati.

Consulta opf redact --help per ulteriori opzioni.

Valutazione su dataset etichettati:

opf eval examples/data/sample_eval_five_examples.jsonl

I file di esempio in examples/data/ sono dati sintetici.

Consulta opf eval --help per dettagli.

Fine-tuning personalizzato:

opf train /percorso/del/train.jsonl --output-dir /percorso/del/finetuned_checkpoint

Consulta opf train --help per opzioni.

Struttura del codice

opf/__main__.py: entrypoint CLI unificato (redact, eval, train)
opf/_api.py: API Python per runtime e decodifica
opf/_cli/: parsing argomenti CLI e supporto terminale
opf/_core/: caricamento runtime, conversione span, decodifica condivisa
opf/_eval/: caricamento dataset, preprocessing, metriche, runner di valutazione
opf/_train/: parsing argomenti, runner per fine-tuning
opf/_model/: implementazione trasformatore, config checkpoint, caricamento pesi
examples/data/: dati di esempio per valutazione e fine-tuning demo
examples/scripts/finetuning/: script dimostrativi per fine-tuning
FINETUNING.md, OUTPUT_SCHEMAS.md, EVAL_AND_OUTPUT_MODES.md: guide e specifiche

Dettagli del modello

Descrizione

Il modello Privacy Filter è una classificazione token bidirezionale con decodifica di span, inizialmente pre-addestrato autoregressivamente. Successivamente, viene modificato in classificatore token con attenzione a banda bidirezionale (banda 128, finestra effettiva 257 token). Gli output sono etichette BIOES coerenti per gli span individuati.

Architettura comprende:

embedding token
8 blocchi transformer ripetuti
attenzione a query raggruppate con embedding posizionali rotatori
blocchi feed-forward con sparse mixture-of-experts (128 esperti, top-4)
testa di classificazione token su etichette privacy (d_model=640)

Decodifica in un singolo passaggio migliora throughput rispetto a modelli autoregressivi iterativi.

Categorie di output

Rileva 8 categorie di dati personali:

Categoria	Descrizione
account_number	Numeri di conto
private_address	Indirizzi personali
private_email	Email private
private_person	Persone private
private_phone	Telefoni privati
private_url	URL private
private_date	Date personali
secret	Segreti/credienziali

Ogni categoria è suddivisa in 4 tag BIOES oltre allo sfondo (O), per un totale di 33 classi token. L'output è una matrice [batch, sequenza, 33] con logits per token.

Decodifica e calibrazione

Usa un decoder Viterbi con transizioni BIOES vincolate, parametri di bias transizionali per ottimizzare coerenza e stabilità di boundary, gestendo il tradeoff tra richiamo e precisione regolabile a runtime.

Meta informazioni

Sviluppato e finanziato da OpenAI
Licenza Apache 2.0
Peso modello e demo disponibili su Hugging Face
Card modello dettagliato in PDF

Bias, rischi e limitazioni

Rischio: eccessiva fiducia

Non garantisce anonimizzazione completa, consigliato usarlo come strumento di supporto integrato in strategie privacy-by-design multilivello.

Limitazioni

Lavora solo con le categorie etichettate nel modello; definizioni politiche statiche richiedono fine-tuning per nuove esigenze. Performance possono diminuire su lingue non inglesi o domini poco rappresentati.

Modalità di fallimento

Può mancare nomi rari o convenzioni particolari, sovra-redigere entità pubbliche o produrre boundary spezzati.

Cautela su settori ad alto rischio

Medicina, legale, finanza richiedono revisione umana e attenzione particolare per errori di falso positivo o negativo.

Raccomandazioni

Usare come parte di un approccio privacy olistico
Valutare localmente con policy personalizzate
Applicare fine-tuning per politiche specifiche
Mantenere revisione manuale per contesti sensibili

Attività commit · ultime 26 settimane

stima

Approfondimenti AI

L'AI sta preparando gli approfondimenti…

Chiedi al repo

AI · contesto README + issue

Fai una domanda sul progetto. L'AI legge README e issue recenti.

Sponsor · Sconto esclusivo RepoRadar AI

Hai bisogno di un server per far girare openai/privacy-filter?

Abbiamo testato decine di provider e Hostinger VPS è il miglior rapporto qualità/prezzo per self-hostare le repo che trovi qui. Setup in 1 click, pannello semplice e supporto 24/7.

Deploy in 1 click

2 vCPU · 8 GB RAM · NVMe

Backup + DDoS inclusi

Attiva sconto Hostinger VPSLink affiliato — supporti RepoRadar senza costi extra per te.

Questo progetto esiste grazie a voi

RepoRadar AI è gratis e senza pubblicità. Le donazioni coprono server, API e modelli AI.

Ogni analisi tradotta che leggi costa qualche centesimo di chiamate al modello. Se RepoRadar ti ha fatto risparmiare tempo, considera una piccola donazione cripto — anche pochi euro aiutano a mantenere il servizio libero per tutti.

Ethereum

ETH

0x86ECDF546d8dFc0739d44c066A6110F11cdB7773

Bitcoin

BTC

bc1qqe0wcmhnt78enk8ql0lxvey4z8hquxsxjtyz8r

Solana

SOL

EtTK61Lz7kfdDM8543TMMiAUUTbFVpzX5tvPEcBtZ3aj

Grazie di cuore — ogni contributo conta.