Pseudonymisierung
Entity-Typen, Mapping-Persistenz und Pseudonym-Formate.
Funktionsweise
Noirdoc erkennt personenbezogene Daten in jeder Nachricht und ersetzt sie durch deterministische Pseudonyme, bevor die Anfrage an den LLM-Anbieter weitergeleitet wird. Das Modell arbeitet ausschliesslich mit den Pseudonymen. In der Antwort werden die Pseudonyme automatisch durch die Originalwerte ersetzt.
Entity-Typen
Noirdoc erkennt die folgenden Kategorien personenbezogener Daten:
| Entity-Typ | Beschreibung | Beispiel |
|---|---|---|
PERSON | Vor- und Nachnamen, Titel | Max Mustermann, Dr. Weber |
EMAIL | E-Mail-Adressen | anna.schmidt@example.com |
PHONE | Telefon- und Faxnummern | +49 30 12345678 |
IBAN | Internationale Bankkontonummern | DE89 3704 0044 0532 0130 00 |
CREDIT_CARD | Kredit- und Debitkartennummern | 4111 1111 1111 1111 |
LOCATION | Adressen, Orte, Laender | Berlin, Friedrichstr. 42 |
DATE | Datumsangaben mit Personenbezug | 15.03.1985, 1990-04-12 |
ORGANIZATION | Firmennamen, Behoerden, Vereine | Deutsche Bank AG, TU Berlin |
IP_ADDRESS | IPv4- und IPv6-Adressen | 192.168.1.1, 2001:db8::1 |
URL | Webseiten-Adressen | https://example.com/profil |
MEDICAL_LICENSE | Aerztliche Zulassungsnummern | Approbationsnummern |
SVNR | Sozialversicherungsnummern | 1234 150385 |
STEUER_ID | Steuerliche Identifikationsnummern | 02 476 291 358 |
Jeder Typ wird unabhaengig erkannt und pseudonymisiert. Die Erkennung ist auf deutsche und europaeische Formate optimiert, funktioniert aber auch mit internationalen Formaten.
Pseudonym-Format
Erkannte Entitäten werden durch Pseudonyme im Format <<TYP_N>> ersetzt, wobei TYP der Entity-Typ und N ein fortlaufender Index ist:
Originaltext:
Max Mustermann (max.mustermann@example.com) hat am 15.03.2024
einen Vertrag mit der Deutsche Bank AG unterzeichnet.
Pseudonymisiert:
<<PERSON_1>> (<<EMAIL_1>>) hat am <<DATE_1>>
einen Vertrag mit der <<ORGANIZATION_1>> unterzeichnet.
Innerhalb einer Session ist das Mapping stabil. Tritt dieselbe Person in Nachricht 1 und Nachricht 5 auf, wird sie in beiden Faellen als <<PERSON_1>> dargestellt. Eine zweite Person erhaelt <<PERSON_2>>, eine dritte <<PERSON_3>> usw.
Das Pseudonym-Format kann über die Einstellung pseudonym_label im Portal angepasst werden.
Mapping-Persistenz
Die Zuordnungstabelle zwischen Originalwerten und Pseudonymen wird verschluesselt gespeichert. Wie lange diese Zuordnung bestehen bleibt, wird über die Einstellung mapping_ttl_days gesteuert.
Standardverhalten (TTL = 30)
Im Standardfall werden Mappings 30 Tage lang aufbewahrt. Innerhalb dieses Zeitraums erhaelt derselbe Originalwert in jeder Session dasselbe Pseudonym. Nach Ablauf der TTL wird das Mapping geloescht; bei erneuter Erkennung wird ein neues Pseudonym vergeben.
TTL = 0 (keine Persistenz)
Wenn mapping_ttl_days auf 0 gesetzt wird, existieren Mappings nur für die Dauer einer einzelnen Anfrage. Jede neue Anfrage beginnt mit leeren Zuordnungen. Das bedeutet:
- Dieselbe Person kann in verschiedenen Anfragen unterschiedliche Pseudonyme erhalten
- Multi-Turn-Conversations verlieren die Konsistenz der Pseudonyme
- Es werden keine Zuordnungsdaten über die Anfrage hinaus gespeichert
TTL = 0 eignet sich für Szenarien mit maximalen Datenschutzanforderungen, bei denen keine persistenten Zuordnungen erwuenscht sind.
TTL erhoehen
Fuer langfristige Projekte oder Analysezwecke kann der TTL-Wert auch über 30 Tage hinaus erhoeht werden. Die Zuordnungen bleiben dann entsprechend laenger konsistent.
Erkennungssystem
Noirdoc verwendet mehrere Erkennungsmethoden, die parallel arbeiten, um sowohl Praezision als auch Erkennungsrate zu maximieren.
Musterbasierte Erkennung
Die erste Stufe erkennt strukturierte Entitäten mit vorhersehbaren Formaten:
- E-Mail-Adressen, URLs, IP-Adressen
- IBANs, Kreditkartennummern
- Steuer-IDs, Sozialversicherungsnummern
- Telefonnummern
Diese Schicht arbeitet deterministisch und schnell. Bei strukturierten Daten produziert sie sehr wenige falsch-positive Ergebnisse.
Kontextsensitive Erkennung
Die zweite Stufe versteht die Bedeutung des umgebenden Textes und erkennt Entitäten, die keinem festen Muster folgen:
- Erkennt Personennamen auch ohne festes Muster
- Unterscheidet z.B. “Schwarz” als Nachname von “schwarz” als Farbe
- Identifiziert Organisationsnamen im Kontext
- Erkennt Ortsangaben in Fliesstext
Konfidenzwerte und Schwellenwert
Jede Erkennung traegt einen Konfidenzwert zwischen 0 und 1. Noirdoc wendet einen konfigurierbaren Schwellenwert an, um unsichere Erkennungen herauszufiltern. Nur Entitäten, die den Schwellenwert erreichen oder überschreiten, werden pseudonymisiert.
DSGVO-Konformität
Die Pseudonymisierung ist ein zentraler Baustein für die Einhaltung der DSGVO (Datenschutz-Grundverordnung):
- Artikel 4 Nr. 5 DSGVO definiert Pseudonymisierung als Verarbeitung personenbezogener Daten in einer Weise, dass sie ohne zusaetzliche Informationen nicht mehr einer bestimmten Person zugeordnet werden koennen
- Artikel 25 DSGVO (Datenschutz durch Technikgestaltung) fordert geeignete technische Massnahmen wie Pseudonymisierung
- Artikel 32 DSGVO nennt Pseudonymisierung als Massnahme zur Sicherheit der Verarbeitung
Noirdoc stellt sicher, dass LLM-Anbieter zu keinem Zeitpunkt Zugang zu den Originaldaten haben. Die Zuordnungstabelle verbleibt verschluesselt auf den Noirdoc-Servern (gehostet in Deutschland) oder in Ihrer eigenen Infrastruktur bei Self-Hosting.