Dateiverarbeitung — Noirdoc Docs

Überblick

Neben Textnachrichten kann Noirdoc auch Dateiinhalte analysieren und pseudonymisieren, die als Inline-Anhaenge in API-Anfragen mitgesendet werden. Das betrifft PDFs, Word-Dokumente, Tabellenkalkulationen, Bilder und weitere Formate, die als Base64-kodierte Daten in den Request Body eingebettet sind.

Die Dateiverarbeitung läuft als eigenstaendige Pipeline vor der Weiterleitung an den LLM-Anbieter und wird über Tenant-Einstellungen konfiguriert.

Unterstützte Formate

Format	MIME-Type	Erkennung	Rekonstruktion
PDF	`application/pdf`	Textextraktion	Nein (wird zu Textblock konvertiert)
DOCX	`application/vnd.openxmlformats-officedocument.wordprocessingml.document`	Textextraktion	Ja (pseudonymisierte DOCX zurueck)
XLSX	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	Textextraktion	Ja (pseudonymisierte XLSX zurueck)
CSV	`text/csv`	Textextraktion	Ja
Markdown	`text/markdown`	Textextraktion	Ja
HTML	`text/html`	Textextraktion	Ja
Bilder (PNG, JPEG, WEBP, GIF)	`image/*`	OCR (optional)	Nein (wird zu Textblock konvertiert)

Rekonstruierbare vs. nicht-rekonstruierbare Formate

Noirdoc unterscheidet zwischen Formaten, die nach der Pseudonymisierung rekonstruiert werden koennen, und solchen, die nicht rekonstruiert werden koennen:

Rekonstruierbar (DOCX, XLSX, CSV, Markdown, HTML): Die pseudonymisierte Datei wird als Base64-kodiertes Dokument im Originalformat zurueckgegeben. Der LLM-Anbieter erhaelt die pseudonymisierte Datei.
Nicht rekonstruierbar (PDF, Bilder): Der extrahierte und pseudonymisierte Text wird als Textblock an die Stelle des Dateianhangs gesetzt. Das Originalformat geht verloren, aber die Inhalte bleiben dem Modell zugänglich.

Analysemodi

Die Einstellung file_analysis_mode bestimmt, wie Noirdoc mit erkannten Dateien umgeht. Es gibt vier Modi:

passthrough

file_analysis_mode: "passthrough"

Dateien werden ohne Analyse an den LLM-Anbieter weitergeleitet. Es findet keine Textextraktion, keine PII-Erkennung und keine Pseudonymisierung statt. Dies ist der Standardmodus.

Nicht nativ unterstützte Formate (z.B. DOCX, XLSX) werden weiterhin in Textbloecke konvertiert, damit der LLM-Anbieter sie verarbeiten kann — jedoch ohne PII-Analyse.

detect_only

file_analysis_mode: "detect_only"

Dateien werden analysiert und erkannte personenbezogene Daten werden im Audit-Log protokolliert. Die Datei wird jedoch unveraendert an den LLM-Anbieter weitergeleitet. Dieser Modus eignet sich für:

Bestandsaufnahme: Wie viele Dateien enthalten personenbezogene Daten?
Testbetrieb vor der Aktivierung der Pseudonymisierung
Compliance-Dokumentation ohne Eingriff in den Datenfluss

block

file_analysis_mode: "block"

Dateien werden analysiert. Wenn personenbezogene Daten erkannt werden, wird die gesamte Anfrage mit einem Fehler abgelehnt (HTTP 422). Die Anfrage erreicht den LLM-Anbieter nicht. Dieser Modus eignet sich für:

Strikte Compliance-Anforderungen, bei denen keine personenbezogenen Daten an externe Anbieter gelangen duerfen
Policies, die das Hochladen sensibler Dokumente unterbinden sollen

pseudonymize

file_analysis_mode: "pseudonymize"

Dateien werden analysiert, erkannte personenbezogene Daten werden pseudonymisiert, und die pseudonymisierten Inhalte werden an den LLM-Anbieter weitergeleitet. Bei rekonstruierbaren Formaten erhaelt der Anbieter eine pseudonymisierte Version der Datei; bei nicht-rekonstruierbaren Formaten einen Textblock mit dem pseudonymisierten Inhalt.

Dieser Modus bietet den hoechsten Schutz bei voller Nutzbarkeit der Dateiinhalte durch das Modell.

OCR für Bilder

Wenn file_ocr_enabled auf true gesetzt ist, werden Bilder (PNG, JPEG, WEBP, GIF) mittels OCR (Optical Character Recognition) in Text umgewandelt. Der extrahierte Text wird anschliessend auf personenbezogene Daten untersucht.

OCR ist standardmaessig deaktiviert, da es zusaetzliche Verarbeitungszeit erfordert. Aktivieren Sie es, wenn Ihre Anwendung regelmaessig Bilder mit Textinhalten verarbeitet — beispielsweise Scans, Fotos von Dokumenten oder Screenshots.

file_ocr_enabled: true

Ohne OCR werden Bilder im Modus passthrough unveraendert weitergeleitet. In den Modi detect_only, block und pseudonymize werden Bilder ohne OCR übersprungen, da kein Text extrahiert werden kann.

Maximale Dateigröße

Die Einstellung file_max_size_mb begrenzt die maximale größe einzelner Dateien, die analysiert werden. Der Standardwert betraegt 25 MB. Dateien, die dieses Limit überschreiten, werden je nach Modus entweder unanalysiert durchgeleitet (passthrough) oder abgelehnt.

file_max_size_mb: 25

Passen Sie diesen Wert an, wenn Sie regelmaessig größere Dokumente verarbeiten oder die größe aus Sicherheitsgruenden weiter einschraenken moechten.

Dateiverarbeitung aktivieren

Die Dateiverarbeitung ist über die Einstellung allow_file_content gesteuert. Sie ist standardmaessig aktiviert (true). Wenn Sie keine Dateiinhalte verarbeiten moechten, setzen Sie:

allow_file_content: false

Anfragen, die Dateiinhalte enthalten, werden dann mit einem Fehler abgelehnt.

Anbieter-Kompatibilität

Noirdoc erkennt Dateiinhalte in den folgenden API-Formaten:

Anbieter-Format	Unterstützte Block-Typen
OpenAI Chat Completions	`image_url`, `file`
OpenAI Responses API	`input_image`, `input_file`
Anthropic Messages API	`image`, `document`

Die Erkennung erfolgt automatisch anhand des Request-Formats. Dateien muessen als Base64-kodierte Inline-Daten eingebettet sein (Data URIs bei OpenAI, Base64-Source bei Anthropic). Externe URLs werden nicht analysiert.

Zurück Pseudonymisierung Weiter Streaming