paperless ngx + ai + local LLM

fishmac

Well-known member
Themenstarter
Registriert
27 Apr. 2007
Beiträge
5.507
Nachdem sich hier im Forum ein paar Leute als User von paperless ngx geoutet haben, hoffe ich hier ein paar Antworten auf meine eher allgemeinen Fragen zu bekommen:

1. In den meisten Videos geht es um die Verschlagwortung der Dokumente, jedoch sind in einer Akte die Dokumente nicht nur thematisch zusammengefasst, sondern auch chronologisch sortiert. Welche Möglichkeiten der Sortierung gibt es denn bei paperless?

2. Beim Testen habe ich keine Möglichkeit gefunden importierte Dokumente wieder zu löschen - Wie wird man importierte Dokumente wieder los?

3. Welche Möglichkeiten bieten sich um doppelte Seiten oder Dokumente zu finden?

4. Ich tendiere dazu das System mit lokaler KI zu fahren. Nutzt jemand eine solche Konfiguration? Mit welchem Ressourcenverbrauch wäre zu rechnen?
 
Ich habe gerade ein ähnliches System aufgesetzt (Dokumentenscanner - Nextcloud - Paperless). Paperless selbst läuft auf jeder Kartoffel und die Erkennung des Titels bzw. Absenders funktioniert gar nicht schlecht, aber natürlich nicht ganz zuverlässig.

Lokale KI ist ein Fass für sich. Ich habe einen 128GB Framework Desktop. Mit den besten Modellen, die ich da zum laufen kriege (ca. 60GB Versionen von qwen3-coder), wird die Sache langsam rund, aber mit bedeutend kleineren macht es keinen Spaß, weil der Anteil an Schrottantworten recht hoch ist und eine KI, die in einem Drittel der Fälle komplett halluziniert, keine Verbesserung darstellt. Für so große Modelle gibt es aber halt hardware technisch kaum Alternativen, die nicht 30k€ kosten. Dazu kommt, dass es extrem langsam wird, wenn der Kontext wächst (einzelnes gescanntes Dokument ist kein Problem, aber wenn du deine Datenbank hinterlegen willst, damit Zusammenhänge klar werden, wird es schnell wild).

Die Integration Paperless + LLM hab ich nicht laufen, geht aber an sich einfach (du kannst z. B. die geOCRten PDFs in ein eigenes Verzeichnis schieben und von dort in die LLM speisen, dann ist das nicht direkt von Paperless abhängig sondern ein eigener Prozess).
 
  • Like
Reaktionen: ubu
Man kann kleinere ki für OCR benutzen, statt tesseract, die layouterkennung ist wohl besser
 
Hat jemand paperless als quadlet zum Laufen gebracht?

Das Zeug hier ist 2 Jahre alt und rennt in irgendwelche s6-Probleme. Keine der Lösungen, die ich gefunden habe half bisher.


Code:
Mar 24 14:12:24 fedora paperless[2207]: /package/admin/s6-overlay/libexec/preinit: fatal: /run belongs to uid 0 instead of 1000, has insecu>
Mar 24 14:12:24 fedora paperless[2207]: s6-overlay-suexec: fatal: child failed with exit code 100
Mar 24 14:12:24 fedora paperless[2108]: c7e3297fc212e8a009f224ec0ecae24d8490abd2d8f254efb7e9b3da82d78cd0
Mar 24 14:12:24 fedora podman[2230]: 2026-03-24 14:12:24.833900391 +0100 CET m=+0.208144793 container died c7e3297fc212e8a009f224ec0ecae24d>
Mar 24 14:12:25 fedora podman[2230]: 2026-03-24 14:12:25.354095287 +0100 CET m=+0.728339668 container remove c7e3297fc212e8a009f224ec0ecae2>
Mar 24 14:12:25 fedora systemd[1]: paperless.service: Main process exited, code=exited, status=100/n/a
Mar 24 14:12:25 fedora systemd[1]: paperless.service: Failed with result 'exit-code'.
Mar 24 14:12:25 fedora systemd[1]: paperless.service: Scheduled restart job, restart counter is at 4.
Mar 24 14:12:25 fedora systemd[1]: Starting paperless.service - Paperless-ngx container...
Mar 24 14:12:25 fedora podman[2382]: 2026-03-24 14:12:25.718429857 +0100 CET m=+0.093845407 container create cb3dd4c30b7e313924b45a782b7ee9>
Mar 24 14:12:25 fedora podman[2382]: 2026-03-24 14:12:25.653740755 +0100 CET m=+0.029156308 image pull 67aa270f9547c721f4e4ddd892a84e61c1e3>
Mar 24 14:12:25 fedora podman[2382]: 2026-03-24 14:12:25.853850725 +0100 CET m=+0.229266277 container init cb3dd4c30b7e313924b45a782b7ee971>
Mar 24 14:12:25 fedora podman[2382]: 2026-03-24 14:12:25.861003104 +0100 CET m=+0.236418657 container start cb3dd4c30b7e313924b45a782b7ee97>
Mar 24 14:12:25 fedora systemd[1]: Started paperless.service - Paperless-ngx container.
Mar 24 14:12:25 fedora paperless[2442]: /package/admin/s6-overlay/libexec/preinit: fatal: /run belongs to uid 0 instead of 1000, has insecu>
Mar 24 14:12:25 fedora paperless[2442]: s6-overlay-suexec: fatal: child failed with exit code 100
Mar 24 14:12:25 fedora paperless[2382]: cb3dd4c30b7e313924b45a782b7ee9710ab5a6fcf4eb8f8cba141d15333a18ad
Mar 24 14:12:25 fedora podman[2458]: 2026-03-24 14:12:25.93011526 +0100 CET m=+0.041954429 container died cb3dd4c30b7e313924b45a782b7ee9710>
Mar 24 14:12:26 fedora podman[2458]: 2026-03-24 14:12:26.265177559 +0100 CET m=+0.377016680 container remove cb3dd4c30b7e313924b45a782b7ee9>
Mar 24 14:12:26 fedora systemd[1]: paperless.service: Main process exited, code=exited, status=100/n/a
Mar 24 14:12:26 fedora systemd[1]: paperless.service: Failed with result 'exit-code'.
Mar 24 14:12:26 fedora systemd[1]: paperless.service: Scheduled restart job, restart counter is at 5.
Mar 24 14:12:26 fedora systemd[1]: paperless.service: Start request repeated too quickly.
Mar 24 14:12:26 fedora systemd[1]: paperless.service: Failed with result 'exit-code'.
Mar 24 14:12:26 fedora systemd[1]: Failed to start paperless.service - Paperless-ngx container.
 
Ich habe einen 128GB Framework Desktop.
Wie schnell ist die Kiste? Habe noch eine P350 Ultra mit i7-12700K, 32GB RAM und Nvidia T 1000 8 GB - meinst Du die könnte einen sinnvollen Beitrag leisten?

Der Framework Desktop mit 128GB kostet mind. 3400€, wieviel hast Du bezahlt? Wieviel Strom zieht die Kiste? Hast Du sie durchgehend laufen?

Hast Du Email in paperless integriert?

Hast Du irgendwelche Mitnutzer? Also ggf. Frau und Kinder, die eine Schnittmenge Deiner Dokumente lesen/nutzen dürfen?

Gibt es bei paperless-ngx irgendwelche best practices? Also erst Korrespondenten und Tags anlegen, dann Dokumente einwerfen...?
 
Guten Tag,

zufällig habe ich diesen Thread gefunden. Ich gebe lokale Schulungen zum papierlosen Büro mit paperless-ngx bei einem Medienkompetenzzentrum in meiner geografischen Nähe und habe mich als Dozent mit der Software auseinandergesetzt. Historisch natürlich aufgrund der Tatsache, dass ich die Software toll fand und selber nutzen wollte.

Habe fertige Docker-Compose Stacks, welche sich zügig starten lassen.

Um kurz auf die Ressourcennutzung einzugehen: paperless-ngx in der Ursprungsform lässt sich mit wenig Systemressourcen gut betreiben. Meine private Instanz läuft auf einer kleinen virtuellen Maschine als besagter Docker-Compose Stack. (1GB RAM, 2 vCPU eines AMD Ryzen, den ich gerade nicht genauer benennen kann). Selbstverständlich nicht ansatzweise nutzbar für einen LLM, aber für vanilla paperless-ngx absolut ausreichend.

Emails sind mittels SMTP-Relay eingerichtet. Dazu habe ich einen Arbeitsablauf "Workflow", welcher in der Lage ist, Email-Benachrichtigungen und Schreib/Leseberechtigungen nach Freigaben mittels Tags hinzuzufügen.

Mehrere Benutzer sind eingerichtet, wobei diese hauptsächlich zum Abruf von Dokumenten dienen, deren Link ich verschicke.

Best practices gibt es viele. Ich empfehle vorab grob eine Struktur aus Korrespondenten, Tags usw. anzulegen und dann bei initialer Befüllung die nötigen Dinge zu ergänzen.

Zusätzlich zur Schulung habe ich ein paar interessante Tips und Themen hier zusammengefasst: https://coders-home.de/?s=paperless-ngx

Wenn du mir eine PN droppst, schicke ich dir mal die Schulungsunterlagen aus dem letzten Jahr als PDF.

Ansonsten gerne hier fragen, ich aktiviere die Email-Benachrichtigungen und antworte zeitnah.

Viele Grüße
 
Der Framework 128GB ist seit Release durch die RAM-Krise absurd teuer geworden, ich hab ihn noch für knapp über 2000€ gekriegt.

Stromverbrauch ist gering, die Kiste rechnet KI aber auch nicht besonders schnell. Ich kann es nicht vergleichen, weil ich kein vergleichbares System mit klassischem GrafikRAM habe, aber meine Rtx 4070 Ti-S rechnet die Modelle, die halt in 16GB passen, viel schneller als der Framework. Ich verwende ihn aber auch weniger als Chatbot und viel mehr für Batches, die über Nacht und Wochen laufen können.

E-Mail verwende ich in Paperless gar nicht, mein Workflow ist Scanner -> Nextcloud -> Paperless -> Nextcloud.

Meine Frau hat einen Lesezugang zu allen Dokumenten, die Kinder sind noch zu klein, als dass es interessant würde. Sharing sieht auf den ersten Blick simpel aus und kann man zB durch die Tags bequem lösen.
 
Was ist denn überhaupt das Ziel der Nutzung von KI in der Kombination?

Ich nutze seit Jahren auch eigentlich nur plain Paperless in Kombination mit einem Scanner, so habe ich das meist auch im Bekanntenkreis ausgerollt.
Das automatische tagging funktioniert für meine Zwecke ausreichend gut und der Rest lässt sich zur Not auch gut über die Volltextsuche finden.

Duplikate werden beim Upload direkt verworfen, zumindest wenn sie denselben Hash haben, das bringt einem natürlich nichts wenn man z.B einen S/W und einen Farbscan hat.

Für LLMs etc, sind ggf auch Apple Silicon Macs gut geeignet und im Vergleich vielleicht sogar halbwegs preisgünstig zu haben.
 
Was ist denn überhaupt das Ziel der Nutzung von KI in der Kombination?
Ich denke das Ziel ist sowas wie hier https://github.com/clusterzx/paperless-ai

Zum einen könnte man durch die LLMs die Erkennung und Sortierung verbessern. Zum anderen ist die Chat-Interaktion mit größeren Dokumenten oder großen Mengen an Dokumenten ansich ein praktisches Feature.

Selber habe ich mangels Zeit zur Einarbeitung in die Materie sowie dem Mangel an geeigneter Hardware noch nichts in der Richtung versucht, würde mich aber über Erfahrungsberichte und auch Anleitungen im Hinblick auf paperless-ai und lokale LLMs (wenn auch langsam) freuen.
 
Habe nun aus Neugier mal paperless-ai zusätzlich zu einer leeren Testinstanz paperless-ngx aufgesetzt und tatsächlich einen guten Bekannten gefunedn, der mir über sein VPN seine lokale Ollama-Installation mit potenter Nvidia-GPU als API zur Verfügung gestellt hat.

Nach paar Hürden bei der Installation und Einrichtung (via docker-compose und mit etwas verkorkstem Netzwerk-Setup) funktioniert das Tool tatsächlich und analysiert und interagiert mit den Dokumenten. Mehr fehlte noch die Zeit tiefer ins Detail zu gehen, aber das was ich in der Kürze der Zeit gestern sehen konnte, ist eigentlich atemberaubend für einen Anfänger im Bereich LLM.

Ich melde mich nochmal mit einem detaillierteren Test.
 
Zum einen könnte man durch die LLMs die Erkennung und Sortierung verbessern. Zum anderen ist die Chat-Interaktion mit größeren Dokumenten oder großen Mengen an Dokumenten ansich ein praktisches Feature.

Ich zitiere mal aus https://www.heise.de/ratgeber/Dokum...it-einem-Sprachmodell-verbinden-11166892.html

Die zweite Funktion ist ein Chatdialog mit dem Sprachmodell zu den indexierten Dokumenten. Anders als die nach wie vor vorhandene Suchfunktion von paperless-ngx kann man außer nach exakten Begriffen auch kontextbezogen suchen. Beispiele: „Wann kann ich frühestens meinen Mobilfunkvertrag kündigen?“, „Wann habe ich den letzten Ölwechsel bei meinem Auto machen lassen?“. Sind Bedienungsanleitungen im Dokumentenarchiv, funktionieren auch Fragen wie „Wie entkalke ich meinen Kaffeevollautomaten?“ oder „Welche Sicherung ist in meinem Auto für das Abblendlicht zuständig?“.

Ich habe aktuell paperless ohne KI-Erweiterungen am Laufen, allerdings wundere ich mich ob Rückstände in "File Tasks" / "Dateiaufgaben" normal sind. In dem Reiter "Abgeschlossen" verbleiben manchmal Einträge, obwohl "Speichern & schließen" gedrückt wurde.
 
Mal so als Laie gefragt: wo liegt man denn kostentechnisch wenn man sowas lokal bei einer Behörde für digitale Dokumente nutzen will? Also Scans und auch im. Original digital vorhandene Dateien zusammenführen, indexieren, inhaltlich analysieren und dann KI als Recherchehilfe? Beispiel: Suche zum Grundstück oder Adresse X die vorhandenen Genehmigungen und Unterlagen + Nachbaradressen aus den letzten 50 Jahren.
Oder bei mehreren Genehmigungen für verschiedene Bauabschnitte oder Beteiebsbereiche die gültigen Auflagen für den Gesamtkomplex zusammenstellen.
Da gibt es viele Dinge die bisher mit aufwendiger manueller Recherche verbunden sind.
 
  • ok1.de
  • IT Refresh - IT Teile & mehr
  • thinkstore24.de
  • Preiswerte-IT - Gebrauchte Lenovo Notebooks kaufen
  • ok2.de - Notebook Computer Server

Werbung

Zurück
Oben