KI PII-Filter

Welcher KI-PII-Filter passt für deutsche Texte? OpenAI Privacy Filter, Microsoft Presidio und Noirdoc im Vergleich.

Im April 2026 hat OpenAI ein offenes Detektions-Modell veröffentlicht. Hier vergleichen wir es mit Microsoft Presidio, einer eigenen Regex-Lösung und Noirdoc — unserer MIT-lizenzierten Pipeline mit deutschem Sprachfokus.

Ein KI-PII-Filter ersetzt personenbezogene Daten durch Platzhalter, bevor der Text an ein Sprachmodell geht. Vier ernsthafte Open-Source-Optionen stehen zur Auswahl: OpenAIs neues Detektions-Modell, Microsoft Presidio, Noirdoc und der Eigenbau mit Regex. Diese Seite vergleicht die vier mit Fokus auf deutsche Texte.

Was ist ein KI-PII-Filter?

Ein KI-PII-Filter erkennt personenbezogene Daten in einem Text und ersetzt sie durch Platzhalter, bevor der Text an ein Sprachmodell wie ChatGPT oder Claude geht. Die KI sieht dann nur die pseudonymisierte Version, in der Namen zu <<PERSON_1>> und IBANs zu <<IBAN_1>> werden. Kommt die Antwort zurück, löst ein lokales Mapping die Platzhalter wieder auf — das Original verlässt deinen Rechner nie. Synonym wird auch der Begriff Privacy-Filter verwendet.

Das Problem ist real und betrifft jeden, der mit echten Geschäftsdaten in einer KI arbeitet. Sobald jemand einen Vertrag, eine E-Mail oder ein Excel mit Kundendaten in einen Prompt kopiert, verlassen IBANs, Klarnamen und Geburtsdaten dein Unternehmen — auch bei Enterprise-Tarifen, die Eingaben nicht für Training nutzen. Verarbeitet werden sie trotzdem, gehen ins Verarbeitungsverzeichnis und brauchen einen AVV.

Im April 2026 hat OpenAI ein offenes Detektions-Modell unter Apache 2.0 veröffentlicht und das Thema damit zum ersten Mal in den Mainstream gebracht. Wer den Filter aber tatsächlich in einen Workflow einbauen will, merkt schnell, dass Detektion nur ein Teil der Aufgabe ist. Reversible Mappings, deutsche Recognizer für Steuer-IDs und SVNRs, Datei-Pipelines für PDFs und Excel — das alles muss man drumherum selbst bauen. Genau dafür gibt es Noirdoc.

Drei Schritte. Null Exposition.

Jede Anfrage wird bereinigt, bevor sie das Modell erreicht. Jede Antwort automatisch wiederhergestellt.

ERKENNEN

Erkennen & ersetzen

Namen, E-Mail-Adressen, Telefonnummern, IBANs — aber auch Firmennamen, Orte, Steuernummern und URLs. Automatisch erkannt und durch Platzhalter wie <<PERSON_1>> oder <<ORG_1>> ersetzt.

WEITERLEITEN

Weiterleiten

Die bereinigte Anfrage geht an das KI-Modell. Es sieht ausschließlich pseudonymisierte Daten.

WIEDERHERSTELLEN

Wiederherstellen

Platzhalter in der Antwort werden durch die Originaldaten ersetzt. Du liest Klartext — das Modell hat ihn nie gesehen.

Session-State bleibt erhalten: <<PERSON_1>> referenziert dieselbe Person — über die gesamte Konversation hinweg.

Die vier Optionen im Vergleich

Alle vier sind Open Source und werden lokal betrieben. Verglichen wird also kein Produkt gegen einen Service, sondern vier Werkzeuge, die jemand mit einem Python-Projekt installieren und einsetzen würde.

Vergleich der vier KI-PII-Filter Noirdoc, OpenAI Privacy Filter, Microsoft Presidio und Regex-Eigenbau nach Lizenz, Sprachfokus, Detektion, deutschen Recognizern, Reversibilität, Datei-Formaten, Schnittstelle und Reife
Kriterium Noirdoc OpenAI Privacy Filter Microsoft Presidio Regex + Eigenbau
Lizenz MIT Apache 2.0 MIT
Sprachfokus Deutsch by default, Fallback auf ["de", "en"] Sprache nicht spezifiziert Englisch by default, andere Sprachen über Plugins Was du baust
Detektion Ensemble: Presidio + Flair ner-german-large + GLiNER Eigenes 1,5-Mrd-Modell spaCy default, andere als Recognizer Regex
Deutsche Recognizer out-of-the-box Steuer-ID, SVNR, IBAN, DE-Telefon keine keine (manuell ergänzen) keine
Reversibles Mapping Ja, mit persistenten Namespaces Nein, nur Intake Möglich, aber manuell aufzubauen Was du baust
Datei-Formate PDF, DOCX, XLSX, Text Text Text Text
Schnittstelle CLI + Python-Library Modell-Weights Python-Bibliothek Eigenbau
Reife Alpha 0.1.x Erstrelease April 2026 Stabil seit 2020 Zeitlos

Was die deutschen Recognizer fangen

Deine Eingabe

Anna Müller, geboren am 12.03.1981 in München, erreichbar unter 0171-2345678, Steuer-ID 12 345 678 901, IBAN DE89 3704 0044 0532 0130 00.

Was die KI sieht

<<PERSON_1>>, geboren am <<DATE_TIME_1>> in <<LOCATION_1>>, erreichbar unter <<PHONE_NUMBER_1>>, Steuer-ID <<DE_STEUER_ID_1>>, IBAN <<IBAN_1>>.

<<PERSON_1>> <<DATE_TIME_1>> <<LOCATION_1>> <<PHONE_NUMBER_1>> <<DE_STEUER_ID_1>> <<IBAN_1>>

Was Noirdoc anders macht

01 — Deutsche Recognizer eingebaut

Steuer-IDs mit ihren elf Ziffern, SVNRs, IBANs im deutschen Format und Telefonnummern mit 0171-Vorwahl in den verschiedensten Schreibweisen werden direkt erkannt, ohne dass du eigene Regeln definieren musst. Bei Presidio sind diese Recognizer nicht enthalten und müssen manuell ergänzt werden. OpenAIs Modell sagt zur Sprache überhaupt nichts.

02 — Reversibilität von Anfang an

Ein lokales Mapping speichert, welcher Platzhalter zu welchem Originalwert gehört, optional persistent über Sessions hinweg über benannte Namespaces. Wenn die KI eine Antwort zurückschickt, löst Noirdoc die Platzhalter im Antworttext automatisch wieder in die Originale auf — ein Schritt, den reines Intake-Scrubbing nicht abdeckt und der für die meisten Workflows entscheidend ist.

03 — Datei-Pipelines für PDF, DOCX und XLSX

Verträge, Rechnungen und Personalakten liegen selten als reiner Text in einem Prompt, sondern als Dokumente. Noirdoc extrahiert den Text aus PDF, DOCX und XLSX, pseudonymisiert ihn und schreibt das Ergebnis bei DOCX und XLSX wieder ins Originalformat zurück. PDFs werden sauber geredacted; ein Reveal in das ursprüngliche Layout ist allerdings noch nicht unterstützt.

Open Source — komplette Pipeline

Die ganze Pipeline ist MIT-lizenziert und liegt auf GitHub. Mit pip install noirdoc[full] läuft die Erkennung, das Mapping und die Datei-Extraktion lokal auf deinem Rechner, ohne dass Daten das Netzwerk verlassen oder ein Account angelegt werden muss. Geeignet ist das für jeden, der ohnehin Python im Stack hat und die volle Kontrolle behalten will.

MIT Python 3.12 / 3.13 Presidio + GLiNER + Flair PDF · DOCX · XLSX

Lieber gehostet als selbst betreiben?

Wer Python-Dependencies und Modell-Updates nicht selbst pflegen möchte, kann denselben Pipeline-Code auch als gehosteten Proxy bei uns laufen lassen. Im Business-Tarif sind Audit-Trail und AVV inbegriffen. Mehr dazu auf der Pricing-Seite.

Echte Daten erreichen das Modell nie.

Personenbezogene und geschäftskritische Daten werden erkannt und ersetzt — bevor die Anfrage das Modell erreicht.

Nicht nur DSGVO: Auch Firmennamen, Standorte, Steuernummern und URLs werden pseudonymisiert.

Zwei unabhängige Erkennungsstufen: regelbasiert und kontextsensitiv.

Lückenloser Audit-Trail. Jede Anfrage nachvollziehbar.

DSGVO-konform by design. Pseudonymisierung managed in Deutschland.

Häufige Fragen

Was ist ein KI-PII-Filter?
Ein KI-PII-Filter ist ein Werkzeug, das personenbezogene Daten in einem Text identifiziert und durch Platzhalter ersetzt, bevor dieser Text an ein Sprachmodell weitergegeben wird. So gelangen echte Namen, IBANs oder Telefonnummern nicht zum Modell. Im Englischen wird derselbe Begriff oft als Privacy-Filter bezeichnet.
Reicht OpenAIs Privacy Filter für deutsche Unternehmen?
Das hängt davon ab, was du brauchst. OpenAIs Modell deckt acht PII-Kategorien ab und läuft auf eigener Infrastruktur — wer nur englischsprachige Texte verarbeitet und ein einfaches Detektions-Bauteil sucht, kommt damit weit. Für deutsche Texte mit Steuer-IDs, SVNRs und Adressen, oder wenn du Antworten der KI wieder ins Original auflösen willst, fehlen wichtige Bausteine, die du andernfalls selbst entwickeln müsstest.
Wie unterscheidet sich Noirdoc von Microsoft Presidio?
Noirdoc nutzt Presidio intern als eine von drei Erkennungsschichten — daneben kommen Flair `ner-german-large` und GLiNER zum Einsatz. Was Presidio als Bibliothek liefert, baut Noirdoc zu einer fertigen Pipeline aus: deutsche Recognizer für Steuer-ID, SVNR und IBAN sind ohne Konfiguration aktiv, ein reversibles Mapping über Namespaces ist eingebaut, und Datei-Extraktoren für PDF, DOCX und XLSX gehören zum Lieferumfang. Wer mit Presidio bei Null anfängt, baut sich genau das Stück für Stück selbst zusammen.
Welche personenbezogenen Daten werden erkannt?
Standardmäßig erkennt Noirdoc Namen, Adressen, E-Mails, deutsche und internationale Telefonnummern, Geburtsdaten, IBANs, Steuer-IDs, SVNRs, Firmennamen und URLs. Zwei Erkennungsschichten greifen ineinander: regelbasierte Recognizer aus Presidio mit deutschen Erweiterungen, und kontextsensitives NLP über Flair und GLiNER. Diese Kombination erkennt auch Namen mitten im Satz oder in Kleinschreibung — der typische Schwachpunkt rein englisch trainierter Modelle.
Ist ein KI-PII-Filter automatisch DSGVO-konform?
Nein. Ein Filter ersetzt einzelne Werte, garantiert aber für sich allein keine Konformität. Ob die Verarbeitung der DSGVO entspricht, hängt vom Gesamtkontext ab: wer hostet das Tool, gibt es einen Vertrag zur Auftragsverarbeitung, ist die Verarbeitung im Verzeichnis dokumentiert, lassen sich Vorfälle nachvollziehen. Lokal mit Noirdoc zu pseudonymisieren ist eine starke Schutzmaßnahme, ersetzt aber nicht die Compliance-Arbeit drumherum.
Brauche ich noch einen PII-Filter, wenn ich ChatGPT Enterprise nutze?
In den meisten Fällen ja. ChatGPT Enterprise verspricht zwar, deine Eingaben nicht für Training zu nutzen, die Daten werden aber weiterhin durch OpenAI verarbeitet und müssen im Verarbeitungsverzeichnis aufgeführt werden — egal ob in der US- oder EU-Region. Ein PII-Filter davor sorgt dafür, dass identifizierende Informationen das Unternehmen erst gar nicht verlassen, und das auf einer anderen Ebene als ein DPA-Vertrag mit OpenAI.

Probier Noirdoc lokal aus.

Lokal mit pip installierbar, MIT-lizenziert, ohne Anmeldung.