Analisi AI · Italiano

openai · gpt-4o-mini

Sintesi

OpenAI Privacy Filter è un modello di classificazione token bidirezionale progettato per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. Ideale per flussi di lavoro di sanificazione dati ad alta velocità, può essere eseguito in locale, è veloce, sensibile al contesto e facilmente adattabile tramite fine-tuning. Supporta l'analisi di testi molto lunghi con una finestra di contesto fino a 128.000 token e consente di regolare dinamicamente precisione e richiamo. È rilasciato con licenza permissiva Apache 2.0, ideale anche per usi commerciali.

Casi d'uso

  • Sanificazione automatica di grandi archivi testuali per rimuovere dati personali prima di analisi dati o condivisione.
  • Integrazione in workflow aziendali on-premises per conformità alla privacy e GDPR.
  • Supporto alla revisione umana veloci in settori regolamentati come medico e legale.
  • Personalizzazione del modello via fine-tuning per adattarsi a specifiche definizioni di dati sensibili di un'organizzazione.
  • Riduzione del rischio di esposizione accidentale di PII in ambienti di sviluppo e test software.

Idee SaaS / Business

Piattaforma SaaS di Data Privacy Filtering

Servizio cloud per sanificare testi e documenti caricati dagli utenti, con personalizzazione avanzata e reportistica sugli interventi di mascheratura.

API On-Premise per Rilevamento PII

Soluzione API privata da integrare nei sistemi aziendali per identificare e mascherare automaticamente PII in tempo reale, mantenendo dati in locale.

Tool di Compliance GDPR con Fine-Tuning Personalizzato

Piattaforma che consente a imprese di caricare proprie policy e dati per fine-tuning del modello e verifica automatica di compliance con le norme sulla privacy.

Target utenti
Team di data science e privacy, sviluppatori software, e gruppi IT di aziende che necessitano di una soluzione efficiente e personalizzabile per il rilevamento e mascheratura di dati personali, specialmente in ambienti on-premises e con requisiti di sicurezza elevati.
Categoria
Python, Transformer, Mixture-of-Experts
Monetizzazione
Modello di monetizzazione basato su licenze commerciali per imprese che richiedono supporto, integrazione avanzata e aggiornamenti, oltre a servizi di consulenza per fine-tuning personalizzati e ambienti on-premises. Possibile offerta SaaS con piani a consumo o abbonamento per l'uso cloud.
Licenza
Apache License 2.0
Trend: Il progetto risponde al crescente bisogno di privacy e compliance automatizzata con un modello moderno, efficiente e adattabile, con forte adozione e interesse nel settore.

README · tradotto in italiano

OpenAI Privacy Filter

OpenAI Privacy Filter è un modello di classificazione token bidirezionale per il rilevamento e la mascheratura di informazioni personali identificabili (PII) nel testo. È pensato per flussi di lavoro di sanificazione dati ad alta velocità dove i team necessitano di un modello da eseguire in locale, veloce, consapevole del contesto e facilmente adattabile.

Il filtro è pre-addestrato in modalità autoregressiva, partendo da un checkpoint con architettura simile a gpt-oss ma di dimensioni minori. Successivamente, il modello viene convertito in un classificatore token bidirezionale secondo una tassonomia di etichette per la privacy, e post-addestrato con una perdita di classificazione supervisionata. A differenza della generazione token per token, questo modello etichetta la sequenza in un'unica passata, decodificando poi gli span con una procedura di Viterbi vincolata. Per ogni token in input il modello predice una distribuzione di probabilità su 8 categorie di output descritte più avanti.

Caratteristiche principali

CaratteristicaDescrizione
Licenza Apache 2.0Permissiva, adatta a sperimentazioni, personalizzazioni e distribuzioni commerciali
Dimensioni contenute1,5 miliardi di parametri totali, 50 milioni attivi, eseguibile su laptop o browser web
Fine-tuning sempliceAdattabile a distribuzioni dati specifiche con poche risorse
Finestra di contesto lungaSupporta testi fino a 128.000 token senza chunking
Controllo a runtimeBilanciamento precisione/richiamo e lunghezza degli span rilevati configurabili

Questo Repository

Contiene codice locale, CLI e asset di esempio per eseguire, valutare e rifinire i checkpoint di Privacy Filter, destinato a team che vogliono gestire il modello nel proprio ambiente.

Risorse: Licenza e Politica sulla Sicurezza.

Come usarlo

  1. Installare il pacchetto localmente:
pip install -e .
  1. Eseguire la redazione one-shot (di default cerca il modello nella cartella indicata da OPF_CHECKPOINT o ~/.opf/privacy_filter, scaricandolo se mancante):
opf "Alice è nata il 1990-01-02."

Per CPU usare:

opf --device cpu "Alice è nata il 1990-01-02."

Per specificare checkpoint:

opf --checkpoint /percorso/del/checkpoint "Alice è nata il 1990-01-02."

Per redigere un intero file:

opf -f /percorso/del/file

Si supportano anche pipeline con pipe:

cat /percorso/del/file | grep -e 'pattern' | opf

Modalità interattiva (default senza input) con output JSON strutturati e anteprime colorate nei terminali supportati.

Consulta opf redact --help per ulteriori opzioni.

  1. Valutazione su dataset etichettati:
opf eval examples/data/sample_eval_five_examples.jsonl

I file di esempio in examples/data/ sono dati sintetici.

Consulta opf eval --help per dettagli.

  1. Fine-tuning personalizzato:
opf train /percorso/del/train.jsonl --output-dir /percorso/del/finetuned_checkpoint

Consulta opf train --help per opzioni.

Struttura del codice

  • opf/__main__.py: entrypoint CLI unificato (redact, eval, train)
  • opf/_api.py: API Python per runtime e decodifica
  • opf/_cli/: parsing argomenti CLI e supporto terminale
  • opf/_core/: caricamento runtime, conversione span, decodifica condivisa
  • opf/_eval/: caricamento dataset, preprocessing, metriche, runner di valutazione
  • opf/_train/: parsing argomenti, runner per fine-tuning
  • opf/_model/: implementazione trasformatore, config checkpoint, caricamento pesi
  • examples/data/: dati di esempio per valutazione e fine-tuning demo
  • examples/scripts/finetuning/: script dimostrativi per fine-tuning
  • FINETUNING.md, OUTPUT_SCHEMAS.md, EVAL_AND_OUTPUT_MODES.md: guide e specifiche

Dettagli del modello

Descrizione

Il modello Privacy Filter è una classificazione token bidirezionale con decodifica di span, inizialmente pre-addestrato autoregressivamente. Successivamente, viene modificato in classificatore token con attenzione a banda bidirezionale (banda 128, finestra effettiva 257 token). Gli output sono etichette BIOES coerenti per gli span individuati.

Architettura comprende:

  • embedding token
  • 8 blocchi transformer ripetuti
  • attenzione a query raggruppate con embedding posizionali rotatori
  • blocchi feed-forward con sparse mixture-of-experts (128 esperti, top-4)
  • testa di classificazione token su etichette privacy (d_model=640)

Decodifica in un singolo passaggio migliora throughput rispetto a modelli autoregressivi iterativi.

Categorie di output

Rileva 8 categorie di dati personali:

CategoriaDescrizione
account_numberNumeri di conto
private_addressIndirizzi personali
private_emailEmail private
private_personPersone private
private_phoneTelefoni privati
private_urlURL private
private_dateDate personali
secretSegreti/credienziali

Ogni categoria è suddivisa in 4 tag BIOES oltre allo sfondo (O), per un totale di 33 classi token. L'output è una matrice [batch, sequenza, 33] con logits per token.

Decodifica e calibrazione

Usa un decoder Viterbi con transizioni BIOES vincolate, parametri di bias transizionali per ottimizzare coerenza e stabilità di boundary, gestendo il tradeoff tra richiamo e precisione regolabile a runtime.

Meta informazioni

  • Sviluppato e finanziato da OpenAI
  • Licenza Apache 2.0
  • Peso modello e demo disponibili su Hugging Face
  • Card modello dettagliato in PDF

Bias, rischi e limitazioni

Rischio: eccessiva fiducia

Non garantisce anonimizzazione completa, consigliato usarlo come strumento di supporto integrato in strategie privacy-by-design multilivello.

Limitazioni

Lavora solo con le categorie etichettate nel modello; definizioni politiche statiche richiedono fine-tuning per nuove esigenze. Performance possono diminuire su lingue non inglesi o domini poco rappresentati.

Modalità di fallimento

Può mancare nomi rari o convenzioni particolari, sovra-redigere entità pubbliche o produrre boundary spezzati.

Cautela su settori ad alto rischio

Medicina, legale, finanza richiedono revisione umana e attenzione particolare per errori di falso positivo o negativo.

Raccomandazioni

  • Usare come parte di un approccio privacy olistico
  • Valutare localmente con policy personalizzate
  • Applicare fine-tuning per politiche specifiche
  • Mantenere revisione manuale per contesti sensibili

Attività commit · ultime 26 settimane

stima

Approfondimenti AI

L'AI sta preparando gli approfondimenti…

Chiedi al repo

AI · contesto README + issue

Fai una domanda sul progetto. L'AI legge README e issue recenti.

Sponsor · Sconto esclusivo RepoRadar AI

Hai bisogno di un server per far girare openai/privacy-filter?

Abbiamo testato decine di provider e Hostinger VPS è il miglior rapporto qualità/prezzo per self-hostare le repo che trovi qui. Setup in 1 click, pannello semplice e supporto 24/7.

Deploy in 1 click
2 vCPU · 8 GB RAM · NVMe
Backup + DDoS inclusi
Attiva sconto Hostinger VPSLink affiliato — supporti RepoRadar senza costi extra per te.

Questo progetto esiste grazie a voi

RepoRadar AI è gratis e senza pubblicità. Le donazioni coprono server, API e modelli AI.

Ogni analisi tradotta che leggi costa qualche centesimo di chiamate al modello. Se RepoRadar ti ha fatto risparmiare tempo, considera una piccola donazione cripto — anche pochi euro aiutano a mantenere il servizio libero per tutti.

Ethereum
ETH
0x86ECDF546d8dFc0739d44c066A6110F11cdB7773
Bitcoin
BTC
bc1qqe0wcmhnt78enk8ql0lxvey4z8hquxsxjtyz8r
Solana
SOL
EtTK61Lz7kfdDM8543TMMiAUUTbFVpzX5tvPEcBtZ3aj

Grazie di cuore — ogni contributo conta.