Welcher KI-PII-Filter passt für deutsche Texte? OpenAI Privacy Filter, Microsoft Presidio und Noirdoc im Vergleich.
Im April 2026 hat OpenAI ein offenes Detektions-Modell veröffentlicht. Hier vergleichen wir es mit Microsoft Presidio, einer eigenen Regex-Lösung und Noirdoc — unserer MIT-lizenzierten Pipeline mit deutschem Sprachfokus.
Ein KI-PII-Filter ersetzt personenbezogene Daten durch Platzhalter, bevor der Text an ein Sprachmodell geht. Vier ernsthafte Open-Source-Optionen stehen zur Auswahl: OpenAIs neues Detektions-Modell, Microsoft Presidio, Noirdoc und der Eigenbau mit Regex. Diese Seite vergleicht die vier mit Fokus auf deutsche Texte.
Was ist ein KI-PII-Filter?
Ein KI-PII-Filter erkennt personenbezogene Daten in einem Text und ersetzt sie durch
Platzhalter, bevor der Text an ein Sprachmodell wie ChatGPT oder Claude geht. Die KI
sieht dann nur die pseudonymisierte Version, in der Namen zu
<<PERSON_1>> und IBANs zu
<<IBAN_1>> werden.
Kommt die Antwort zurück, löst ein lokales Mapping die Platzhalter wieder auf — das
Original verlässt deinen Rechner nie. Synonym wird auch der Begriff Privacy-Filter
verwendet.
Das Problem ist real und betrifft jeden, der mit echten Geschäftsdaten in einer KI arbeitet. Sobald jemand einen Vertrag, eine E-Mail oder ein Excel mit Kundendaten in einen Prompt kopiert, verlassen IBANs, Klarnamen und Geburtsdaten dein Unternehmen — auch bei Enterprise-Tarifen, die Eingaben nicht für Training nutzen. Verarbeitet werden sie trotzdem, gehen ins Verarbeitungsverzeichnis und brauchen einen AVV.
Im April 2026 hat OpenAI ein offenes Detektions-Modell unter Apache 2.0 veröffentlicht und das Thema damit zum ersten Mal in den Mainstream gebracht. Wer den Filter aber tatsächlich in einen Workflow einbauen will, merkt schnell, dass Detektion nur ein Teil der Aufgabe ist. Reversible Mappings, deutsche Recognizer für Steuer-IDs und SVNRs, Datei-Pipelines für PDFs und Excel — das alles muss man drumherum selbst bauen. Genau dafür gibt es Noirdoc.
Drei Schritte. Null Exposition.
Jede Anfrage wird bereinigt, bevor sie das Modell erreicht. Jede Antwort automatisch wiederhergestellt.
Erkennen & ersetzen
Namen, E-Mail-Adressen, Telefonnummern, IBANs — aber auch Firmennamen, Orte, Steuernummern und URLs. Automatisch erkannt und durch Platzhalter wie <<PERSON_1>> oder <<ORG_1>> ersetzt.
Weiterleiten
Die bereinigte Anfrage geht an das KI-Modell. Es sieht ausschließlich pseudonymisierte Daten.
Wiederherstellen
Platzhalter in der Antwort werden durch die Originaldaten ersetzt. Du liest Klartext — das Modell hat ihn nie gesehen.
Session-State bleibt erhalten: <<PERSON_1>> referenziert dieselbe Person — über die gesamte Konversation hinweg.
Die vier Optionen im Vergleich
Alle vier sind Open Source und werden lokal betrieben. Verglichen wird also kein Produkt gegen einen Service, sondern vier Werkzeuge, die jemand mit einem Python-Projekt installieren und einsetzen würde.
| Kriterium | Noirdoc | OpenAI Privacy Filter | Microsoft Presidio | Regex + Eigenbau |
|---|---|---|---|---|
| Lizenz | MIT | Apache 2.0 | MIT | — |
| Sprachfokus | Deutsch by default, Fallback auf ["de", "en"] | Sprache nicht spezifiziert | Englisch by default, andere Sprachen über Plugins | Was du baust |
| Detektion | Ensemble: Presidio + Flair ner-german-large + GLiNER | Eigenes 1,5-Mrd-Modell | spaCy default, andere als Recognizer | Regex |
| Deutsche Recognizer out-of-the-box | Steuer-ID, SVNR, IBAN, DE-Telefon | keine | keine (manuell ergänzen) | keine |
| Reversibles Mapping | Ja, mit persistenten Namespaces | Nein, nur Intake | Möglich, aber manuell aufzubauen | Was du baust |
| Datei-Formate | PDF, DOCX, XLSX, Text | Text | Text | Text |
| Schnittstelle | CLI + Python-Library | Modell-Weights | Python-Bibliothek | Eigenbau |
| Reife | Alpha 0.1.x | Erstrelease April 2026 | Stabil seit 2020 | Zeitlos |
Was die deutschen Recognizer fangen
Anna Müller, geboren am 12.03.1981 in München, erreichbar unter 0171-2345678, Steuer-ID 12 345 678 901, IBAN DE89 3704 0044 0532 0130 00.
<<PERSON_1>>, geboren am <<DATE_TIME_1>> in <<LOCATION_1>>, erreichbar unter <<PHONE_NUMBER_1>>, Steuer-ID <<DE_STEUER_ID_1>>, IBAN <<IBAN_1>>.
Was Noirdoc anders macht
01 — Deutsche Recognizer eingebaut
Steuer-IDs mit ihren elf Ziffern, SVNRs, IBANs im deutschen Format und Telefonnummern mit 0171-Vorwahl in den verschiedensten Schreibweisen werden direkt erkannt, ohne dass du eigene Regeln definieren musst. Bei Presidio sind diese Recognizer nicht enthalten und müssen manuell ergänzt werden. OpenAIs Modell sagt zur Sprache überhaupt nichts.
02 — Reversibilität von Anfang an
Ein lokales Mapping speichert, welcher Platzhalter zu welchem Originalwert gehört, optional persistent über Sessions hinweg über benannte Namespaces. Wenn die KI eine Antwort zurückschickt, löst Noirdoc die Platzhalter im Antworttext automatisch wieder in die Originale auf — ein Schritt, den reines Intake-Scrubbing nicht abdeckt und der für die meisten Workflows entscheidend ist.
03 — Datei-Pipelines für PDF, DOCX und XLSX
Verträge, Rechnungen und Personalakten liegen selten als reiner Text in einem Prompt, sondern als Dokumente. Noirdoc extrahiert den Text aus PDF, DOCX und XLSX, pseudonymisiert ihn und schreibt das Ergebnis bei DOCX und XLSX wieder ins Originalformat zurück. PDFs werden sauber geredacted; ein Reveal in das ursprüngliche Layout ist allerdings noch nicht unterstützt.
Open Source — komplette Pipeline
Die ganze Pipeline ist MIT-lizenziert und liegt auf
GitHub. Mit
pip install noirdoc[full]
läuft die Erkennung, das Mapping und die Datei-Extraktion lokal auf deinem Rechner,
ohne dass Daten das Netzwerk verlassen oder ein Account angelegt werden muss. Geeignet
ist das für jeden, der ohnehin Python im Stack hat und die volle Kontrolle behalten
will.
Lieber gehostet als selbst betreiben?
Wer Python-Dependencies und Modell-Updates nicht selbst pflegen möchte, kann denselben Pipeline-Code auch als gehosteten Proxy bei uns laufen lassen. Im Business-Tarif sind Audit-Trail und AVV inbegriffen. Mehr dazu auf der Pricing-Seite.
Echte Daten erreichen das Modell nie.
Personenbezogene und geschäftskritische Daten werden erkannt und ersetzt — bevor die Anfrage das Modell erreicht.
Nicht nur DSGVO: Auch Firmennamen, Standorte, Steuernummern und URLs werden pseudonymisiert.
Zwei unabhängige Erkennungsstufen: regelbasiert und kontextsensitiv.
Lückenloser Audit-Trail. Jede Anfrage nachvollziehbar.
DSGVO-konform by design. Pseudonymisierung managed in Deutschland.
Häufige Fragen
Was ist ein KI-PII-Filter?
Reicht OpenAIs Privacy Filter für deutsche Unternehmen?
Wie unterscheidet sich Noirdoc von Microsoft Presidio?
Welche personenbezogenen Daten werden erkannt?
Ist ein KI-PII-Filter automatisch DSGVO-konform?
Brauche ich noch einen PII-Filter, wenn ich ChatGPT Enterprise nutze?
Probier Noirdoc lokal aus.
Lokal mit pip installierbar, MIT-lizenziert, ohne Anmeldung.