Analisi AI · Italiano
openai · gpt-4o-miniSintesi
OpenAI Privacy Filter è un modello di classificazione token bidirezionale progettato per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. Ideale per flussi di lavoro di sanificazione dati ad alta velocità, può essere eseguito in locale, è veloce, sensibile al contesto e facilmente adattabile tramite fine-tuning. Supporta l'analisi di testi molto lunghi con una finestra di contesto fino a 128.000 token e consente di regolare dinamicamente precisione e richiamo. È rilasciato con licenza permissiva Apache 2.0, ideale anche per usi commerciali.
Casi d'uso
- →Sanificazione automatica di grandi archivi testuali per rimuovere dati personali prima di analisi dati o condivisione.
- →Integrazione in workflow aziendali on-premises per conformità alla privacy e GDPR.
- →Supporto alla revisione umana veloci in settori regolamentati come medico e legale.
- →Personalizzazione del modello via fine-tuning per adattarsi a specifiche definizioni di dati sensibili di un'organizzazione.
- →Riduzione del rischio di esposizione accidentale di PII in ambienti di sviluppo e test software.
Idee SaaS / Business
Servizio cloud per sanificare testi e documenti caricati dagli utenti, con personalizzazione avanzata e reportistica sugli interventi di mascheratura.
Soluzione API privata da integrare nei sistemi aziendali per identificare e mascherare automaticamente PII in tempo reale, mantenendo dati in locale.
Piattaforma che consente a imprese di caricare proprie policy e dati per fine-tuning del modello e verifica automatica di compliance con le norme sulla privacy.
README · tradotto in italiano
OpenAI Privacy Filter
OpenAI Privacy Filter è un modello di classificazione token bidirezionale per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. È pensato per flussi di lavoro di sanificazione dati ad alta velocità dove i team necessitano di un modello da eseguire in locale, veloce, consapevole del contesto e facilmente adattabile.
Il filtro è pre-addestrato in modalità autoregressiva, partendo da un checkpoint con architettura simile a gpt-oss ma di dimensioni minori. Successivamente, il modello viene convertito in un classificatore token bidirezionale secondo una tassonomia di etichette per la privacy, e post-addestrato con una perdita di classificazione supervisionata. A differenza della generazione token per token, questo modello etichetta la sequenza in un'unica passata, decodificando poi gli span con una procedura di Viterbi vincolata. Per ogni token in input il modello predice una distribuzione di probabilità su 8 categorie di output descritte più avanti.
Caratteristiche principali
| Caratteristica | Descrizione |
|---|---|
| Licenza Apache 2.0 | Permissiva, adatta a sperimentazioni, personalizzazioni e distribuzioni commerciali |
| Dimensioni contenute | 1,5 miliardi di parametri totali, 50 milioni attivi, eseguibile su laptop o browser web |
| Fine-tuning semplice | Adattabile a distribuzioni dati specifiche con poche risorse |
| Finestra di contesto lunga | Supporta testi fino a 128.000 token senza chunking |
| Controllo a runtime | Bilanciamento precisione/richiamo e lunghezza degli span rilevati configurabili |
Questo Repository
Contiene codice locale, CLI e asset di esempio per eseguire, valutare e rifinire i checkpoint di Privacy Filter, destinato a team che vogliono gestire il modello nel proprio ambiente.
Risorse: Licenza e Politica sulla Sicurezza.
Come usarlo
- Installare il pacchetto localmente:
pip install -e .
- Eseguire la redazione one-shot (di default cerca il modello nella cartella indicata da
OPF_CHECKPOINTo~/.opf/privacy_filter, scaricandolo se mancante):
opf "Alice è nata il 1990-01-02."
Per CPU usare:
opf --device cpu "Alice è nata il 1990-01-02."
Per specificare checkpoint:
opf --checkpoint /percorso/del/checkpoint "Alice è nata il 1990-01-02."
Per redigere un intero file:
opf -f /percorso/del/file
Si supportano anche pipeline con pipe:
cat /percorso/del/file | grep -e 'pattern' | opf
Modalità interattiva (default senza input) con output JSON strutturati e anteprime colorate nei terminali supportati.
Consulta opf redact --help per ulteriori opzioni.
- Valutazione su dataset etichettati:
opf eval examples/data/sample_eval_five_examples.jsonl
I file di esempio in examples/data/ sono dati sintetici.
Consulta opf eval --help per dettagli.
- Fine-tuning personalizzato:
opf train /percorso/del/train.jsonl --output-dir /percorso/del/finetuned_checkpoint
Consulta opf train --help per opzioni.
Struttura del codice
opf/__main__.py: entrypoint CLI unificato (redact, eval, train)opf/_api.py: API Python per runtime e decodificaopf/_cli/: parsing argomenti CLI e supporto terminaleopf/_core/: caricamento runtime, conversione span, decodifica condivisaopf/_eval/: caricamento dataset, preprocessing, metriche, runner di valutazioneopf/_train/: parsing argomenti, runner per fine-tuningopf/_model/: implementazione trasformatore, config checkpoint, caricamento pesiexamples/data/: dati di esempio per valutazione e fine-tuning demoexamples/scripts/finetuning/: script dimostrativi per fine-tuningFINETUNING.md,OUTPUT_SCHEMAS.md,EVAL_AND_OUTPUT_MODES.md: guide e specifiche
Dettagli del modello
Descrizione
Il modello Privacy Filter è una classificazione token bidirezionale con decodifica di span, inizialmente pre-addestrato autoregressivamente. Successivamente, viene modificato in classificatore token con attenzione a banda bidirezionale (banda 128, finestra effettiva 257 token). Gli output sono etichette BIOES coerenti per gli span individuati.
Architettura comprende:
- embedding token
- 8 blocchi transformer ripetuti
- attenzione a query raggruppate con embedding posizionali rotatori
- blocchi feed-forward con sparse mixture-of-experts (128 esperti, top-4)
- testa di classificazione token su etichette privacy (d_model=640)
Decodifica in un singolo passaggio migliora throughput rispetto a modelli autoregressivi iterativi.
Categorie di output
Rileva 8 categorie di dati personali:
| Categoria | Descrizione |
|---|---|
| account_number | Numeri di conto |
| private_address | Indirizzi personali |
| private_email | Email private |
| private_person | Persone private |
| private_phone | Telefoni privati |
| private_url | URL private |
| private_date | Date personali |
| secret | Segreti/credienziali |
Ogni categoria è suddivisa in 4 tag BIOES oltre allo sfondo (O), per un totale di 33 classi token. L'output è una matrice [batch, sequenza, 33] con logits per token.
Decodifica e calibrazione
Usa un decoder Viterbi con transizioni BIOES vincolate, parametri di bias transizionali per ottimizzare coerenza e stabilità di boundary, gestendo il tradeoff tra richiamo e precisione regolabile a runtime.
Meta informazioni
- Sviluppato e finanziato da OpenAI
- Licenza Apache 2.0
- Peso modello e demo disponibili su Hugging Face
- Card modello dettagliato in PDF
Bias, rischi e limitazioni
Rischio: eccessiva fiducia
Non garantisce anonimizzazione completa, consigliato usarlo come strumento di supporto integrato in strategie privacy-by-design multilivello.
Limitazioni
Lavora solo con le categorie etichettate nel modello; definizioni politiche statiche richiedono fine-tuning per nuove esigenze. Performance possono diminuire su lingue non inglesi o domini poco rappresentati.
Modalità di fallimento
Può mancare nomi rari o convenzioni particolari, sovra-redigere entità pubbliche o produrre boundary spezzati.
Cautela su settori ad alto rischio
Medicina, legale, finanza richiedono revisione umana e attenzione particolare per errori di falso positivo o negativo.
Raccomandazioni
- Usare come parte di un approccio privacy olistico
- Valutare localmente con policy personalizzate
- Applicare fine-tuning per politiche specifiche
- Mantenere revisione manuale per contesti sensibili
Attività commit · ultime 26 settimane
stimaApprofondimenti AI
Chiedi al repo
AI · contesto README + issueFai una domanda sul progetto. L'AI legge README e issue recenti.
Hai bisogno di un server per far girare openai/privacy-filter?
Abbiamo testato decine di provider e Hostinger VPS è il miglior rapporto qualità/prezzo per self-hostare le repo che trovi qui. Setup in 1 click, pannello semplice e supporto 24/7.
Questo progetto esiste grazie a voi
RepoRadar AI è gratis e senza pubblicità. Le donazioni coprono server, API e modelli AI.
Ogni analisi tradotta che leggi costa qualche centesimo di chiamate al modello. Se RepoRadar ti ha fatto risparmiare tempo, considera una piccola donazione cripto — anche pochi euro aiutano a mantenere il servizio libero per tutti.
0x86ECDF546d8dFc0739d44c066A6110F11cdB7773bc1qqe0wcmhnt78enk8ql0lxvey4z8hquxsxjtyz8rEtTK61Lz7kfdDM8543TMMiAUUTbFVpzX5tvPEcBtZ3ajGrazie di cuore — ogni contributo conta.