Dateiverarbeitung
Inhalte in PDFs, Word-Dokumenten, Tabellen und Bildern verarbeiten und pseudonymisieren.
Überblick
Neben Textnachrichten kann Noirdoc auch Dateiinhalte analysieren und pseudonymisieren, die als Inline-Anhaenge in API-Anfragen mitgesendet werden. Das betrifft PDFs, Word-Dokumente, Tabellenkalkulationen, Bilder und weitere Formate, die als Base64-kodierte Daten in den Request Body eingebettet sind.
Die Dateiverarbeitung läuft als eigenstaendige Pipeline vor der Weiterleitung an den LLM-Anbieter und wird über Tenant-Einstellungen konfiguriert.
Unterstützte Formate
| Format | MIME-Type | Erkennung | Rekonstruktion |
|---|---|---|---|
application/pdf | Textextraktion | Nein (wird zu Textblock konvertiert) | |
| DOCX | application/vnd.openxmlformats-officedocument.wordprocessingml.document | Textextraktion | Ja (pseudonymisierte DOCX zurueck) |
| XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | Textextraktion | Ja (pseudonymisierte XLSX zurueck) |
| CSV | text/csv | Textextraktion | Ja |
| Markdown | text/markdown | Textextraktion | Ja |
| HTML | text/html | Textextraktion | Ja |
| Bilder (PNG, JPEG, WEBP, GIF) | image/* | OCR (optional) | Nein (wird zu Textblock konvertiert) |
Rekonstruierbare vs. nicht-rekonstruierbare Formate
Noirdoc unterscheidet zwischen Formaten, die nach der Pseudonymisierung rekonstruiert werden koennen, und solchen, die nicht rekonstruiert werden koennen:
- Rekonstruierbar (DOCX, XLSX, CSV, Markdown, HTML): Die pseudonymisierte Datei wird als Base64-kodiertes Dokument im Originalformat zurueckgegeben. Der LLM-Anbieter erhaelt die pseudonymisierte Datei.
- Nicht rekonstruierbar (PDF, Bilder): Der extrahierte und pseudonymisierte Text wird als Textblock an die Stelle des Dateianhangs gesetzt. Das Originalformat geht verloren, aber die Inhalte bleiben dem Modell zugänglich.
Analysemodi
Die Einstellung file_analysis_mode bestimmt, wie Noirdoc mit erkannten Dateien umgeht. Es gibt vier Modi:
passthrough
file_analysis_mode: "passthrough"
Dateien werden ohne Analyse an den LLM-Anbieter weitergeleitet. Es findet keine Textextraktion, keine PII-Erkennung und keine Pseudonymisierung statt. Dies ist der Standardmodus.
Nicht nativ unterstützte Formate (z.B. DOCX, XLSX) werden weiterhin in Textbloecke konvertiert, damit der LLM-Anbieter sie verarbeiten kann — jedoch ohne PII-Analyse.
detect_only
file_analysis_mode: "detect_only"
Dateien werden analysiert und erkannte personenbezogene Daten werden im Audit-Log protokolliert. Die Datei wird jedoch unveraendert an den LLM-Anbieter weitergeleitet. Dieser Modus eignet sich für:
- Bestandsaufnahme: Wie viele Dateien enthalten personenbezogene Daten?
- Testbetrieb vor der Aktivierung der Pseudonymisierung
- Compliance-Dokumentation ohne Eingriff in den Datenfluss
block
file_analysis_mode: "block"
Dateien werden analysiert. Wenn personenbezogene Daten erkannt werden, wird die gesamte Anfrage mit einem Fehler abgelehnt (HTTP 422). Die Anfrage erreicht den LLM-Anbieter nicht. Dieser Modus eignet sich für:
- Strikte Compliance-Anforderungen, bei denen keine personenbezogenen Daten an externe Anbieter gelangen duerfen
- Policies, die das Hochladen sensibler Dokumente unterbinden sollen
pseudonymize
file_analysis_mode: "pseudonymize"
Dateien werden analysiert, erkannte personenbezogene Daten werden pseudonymisiert, und die pseudonymisierten Inhalte werden an den LLM-Anbieter weitergeleitet. Bei rekonstruierbaren Formaten erhaelt der Anbieter eine pseudonymisierte Version der Datei; bei nicht-rekonstruierbaren Formaten einen Textblock mit dem pseudonymisierten Inhalt.
Dieser Modus bietet den hoechsten Schutz bei voller Nutzbarkeit der Dateiinhalte durch das Modell.
OCR für Bilder
Wenn file_ocr_enabled auf true gesetzt ist, werden Bilder (PNG, JPEG, WEBP, GIF) mittels OCR (Optical Character Recognition) in Text umgewandelt. Der extrahierte Text wird anschliessend auf personenbezogene Daten untersucht.
OCR ist standardmaessig deaktiviert, da es zusaetzliche Verarbeitungszeit erfordert. Aktivieren Sie es, wenn Ihre Anwendung regelmaessig Bilder mit Textinhalten verarbeitet — beispielsweise Scans, Fotos von Dokumenten oder Screenshots.
file_ocr_enabled: true
Ohne OCR werden Bilder im Modus passthrough unveraendert weitergeleitet. In den Modi detect_only, block und pseudonymize werden Bilder ohne OCR übersprungen, da kein Text extrahiert werden kann.
Maximale Dateigröße
Die Einstellung file_max_size_mb begrenzt die maximale größe einzelner Dateien, die analysiert werden. Der Standardwert betraegt 25 MB. Dateien, die dieses Limit überschreiten, werden je nach Modus entweder unanalysiert durchgeleitet (passthrough) oder abgelehnt.
file_max_size_mb: 25
Passen Sie diesen Wert an, wenn Sie regelmaessig größere Dokumente verarbeiten oder die größe aus Sicherheitsgruenden weiter einschraenken moechten.
Dateiverarbeitung aktivieren
Die Dateiverarbeitung ist über die Einstellung allow_file_content gesteuert. Sie ist standardmaessig aktiviert (true). Wenn Sie keine Dateiinhalte verarbeiten moechten, setzen Sie:
allow_file_content: false
Anfragen, die Dateiinhalte enthalten, werden dann mit einem Fehler abgelehnt.
Anbieter-Kompatibilität
Noirdoc erkennt Dateiinhalte in den folgenden API-Formaten:
| Anbieter-Format | Unterstützte Block-Typen |
|---|---|
| OpenAI Chat Completions | image_url, file |
| OpenAI Responses API | input_image, input_file |
| Anthropic Messages API | image, document |
Die Erkennung erfolgt automatisch anhand des Request-Formats. Dateien muessen als Base64-kodierte Inline-Daten eingebettet sein (Data URIs bei OpenAI, Base64-Source bei Anthropic). Externe URLs werden nicht analysiert.