Question 1

Was ist ein KI-PII-Filter?

Accepted Answer

Ein KI-PII-Filter ist ein Werkzeug, das personenbezogene Daten in einem Text identifiziert und durch Platzhalter ersetzt, bevor dieser Text an ein Sprachmodell weitergegeben wird. So gelangen echte Namen, IBANs oder Telefonnummern nicht zum Modell. Im Englischen wird derselbe Begriff oft als Privacy-Filter bezeichnet.

Question 2

Reicht OpenAIs Privacy Filter für deutsche Unternehmen?

Accepted Answer

Das hängt davon ab, was du brauchst. OpenAIs Modell deckt acht PII-Kategorien ab und läuft auf eigener Infrastruktur — wer nur englischsprachige Texte verarbeitet und ein einfaches Detektions-Bauteil sucht, kommt damit weit. Für deutsche Texte mit Steuer-IDs, SVNRs und Adressen, oder wenn du Antworten der KI wieder ins Original auflösen willst, fehlen wichtige Bausteine, die du andernfalls selbst entwickeln müsstest.

Question 3

Wie unterscheidet sich Noirdoc von Microsoft Presidio?

Accepted Answer

Noirdoc nutzt Presidio intern als eine von drei Erkennungsschichten — daneben kommen Flair `ner-german-large` und GLiNER zum Einsatz. Was Presidio als Bibliothek liefert, baut Noirdoc zu einer fertigen Pipeline aus: deutsche Recognizer für Steuer-ID, SVNR und IBAN sind ohne Konfiguration aktiv, ein reversibles Mapping über Namespaces ist eingebaut, und Datei-Extraktoren für PDF, DOCX und XLSX gehören zum Lieferumfang. Wer mit Presidio bei Null anfängt, baut sich genau das Stück für Stück selbst zusammen.

Question 4

Welche personenbezogenen Daten werden erkannt?

Accepted Answer

Standardmäßig erkennt Noirdoc Namen, Adressen, E-Mails, deutsche und internationale Telefonnummern, Geburtsdaten, IBANs, Steuer-IDs, SVNRs, Firmennamen und URLs. Zwei Erkennungsschichten greifen ineinander: regelbasierte Recognizer aus Presidio mit deutschen Erweiterungen, und kontextsensitives NLP über Flair und GLiNER. Diese Kombination erkennt auch Namen mitten im Satz oder in Kleinschreibung — der typische Schwachpunkt rein englisch trainierter Modelle.

Question 5

Ist ein KI-PII-Filter automatisch DSGVO-konform?

Accepted Answer

Nein. Ein Filter ersetzt einzelne Werte, garantiert aber für sich allein keine Konformität. Ob die Verarbeitung der DSGVO entspricht, hängt vom Gesamtkontext ab: wer hostet das Tool, gibt es einen Vertrag zur Auftragsverarbeitung, ist die Verarbeitung im Verzeichnis dokumentiert, lassen sich Vorfälle nachvollziehen. Lokal mit Noirdoc zu pseudonymisieren ist eine starke Schutzmaßnahme, ersetzt aber nicht die Compliance-Arbeit drumherum.

Question 6

Brauche ich noch einen PII-Filter, wenn ich ChatGPT Enterprise nutze?

Accepted Answer

In den meisten Fällen ja. ChatGPT Enterprise verspricht zwar, deine Eingaben nicht für Training zu nutzen, die Daten werden aber weiterhin durch OpenAI verarbeitet und müssen im Verarbeitungsverzeichnis aufgeführt werden — egal ob in der US- oder EU-Region. Ein PII-Filter davor sorgt dafür, dass identifizierende Informationen das Unternehmen erst gar nicht verlassen, und das auf einer anderen Ebene als ein DPA-Vertrag mit OpenAI.

Kriterium	Noirdoc	OpenAI Privacy Filter	Microsoft Presidio	Regex + Eigenbau
Lizenz	MIT	Apache 2.0	MIT	—
Sprachfokus	Deutsch by default, Fallback auf ["de", "en"]	Sprache nicht spezifiziert	Englisch by default, andere Sprachen über Plugins	Was du baust
Detektion	Ensemble: Presidio + Flair ner-german-large + GLiNER	Eigenes 1,5-Mrd-Modell	spaCy default, andere als Recognizer	Regex
Deutsche Recognizer out-of-the-box	Steuer-ID, SVNR, IBAN, DE-Telefon	keine	keine (manuell ergänzen)	keine
Reversibles Mapping	Ja, mit persistenten Namespaces	Nein, nur Intake	Möglich, aber manuell aufzubauen	Was du baust
Datei-Formate	PDF, DOCX, XLSX, Text	Text	Text	Text
Schnittstelle	CLI + Python-Library	Modell-Weights	Python-Bibliothek	Eigenbau
Reife	Alpha 0.1.x	Erstrelease April 2026	Stabil seit 2020	Zeitlos

Welcher KI-PII-Filter passt für deutsche Texte? OpenAI Privacy Filter, Microsoft Presidio und Noirdoc im Vergleich.

Was ist ein KI-PII-Filter?

Drei Schritte. Null Exposition.

Erkennen & ersetzen

Weiterleiten

Wiederherstellen

Die vier Optionen im Vergleich

Was die deutschen Recognizer fangen

Was Noirdoc anders macht

01 — Deutsche Recognizer eingebaut

02 — Reversibilität von Anfang an

03 — Datei-Pipelines für PDF, DOCX und XLSX

Open Source — komplette Pipeline

Lieber gehostet als selbst betreiben?

Echte Daten erreichen das Modell nie.

Häufige Fragen

Probier Noirdoc lokal aus.