Werkzeug um Belege zu scannen, Texterkennung durchzuführen und Belege sortiert abzulegen

2.7 KiB

Raw Permalink Blame History

Ideen

Verbesserung des Pfad-Handlings

Stand

Aktuell werden Dokumente nach folgendem Muster erzeugt:

Wenn der gesetzte Pfad
$HOME/Dokumente/$YEAR/$MONTH/$BETREFF
ist, würde am 5.2.2023 ein von srichter ausgelöster PDF-Auftrag mit Betreff „Demo“ zunächst eine Datei
/home/srichter/2023/02/Demo/<timestamp.jpg> ergeben.

Falls das Ziel ein PDF ist, würde sofort danach die Datei zu
/home/srichter/2023/02/Demo/<timestamp.page.pdf> konvertiert.

Falls OCR aktiviert ist, würde danach
/home/srichter/2023/02/Demo/<timestamp.page.ocr.pdf> erzeugt.

Beim Zusammenfügen ergäbe sich dann
/home/srichter/2023/02/Demo/Demo.pdf.

Gewünschtes Verfahren

Sinnvoll wäre es, wenn bei gesetzem Pfad
$HOME/Dokumente/$YEAR/$MONTH/$BETREFF
die Dateien wie folgt erzeugt würden:

Ziel JPG

Die Datei wird direkt nach
/home/srichter/2023/02/Demo.jpg gescannt.

Ziel PDF

Die Datei wird nach
/home/srichter/2023/02/Demo.jpg gescannt und dann nach
/home/srichter/2023/02/Demo.pdf konvertiert.

Ziel PDF+OCR

Die Datei wird nach
/home/srichter/2023/02/Demo.jpg gescannt, dann nach
/home/srichter/2023/02/Demo.tmp.pdf konvertiert. Nach Texterkennung wird
/home/srichter/2023/02/Demo.pdf erzeugt.

Mehrseitige Dokumente

Für mehrseitige Dokument kann die Variable $PAGE eingebaut werden:

Ist diese im Pfad vorhanden, so wird ein Eingabefeld für den aktuellen Stand eingeblendet. Dieses soll ggf. schon vorhandene Dokumente berücksichtigen.

Es sei der Pfad also
$HOME/Dokumente/$YEAR/$MONTH/$BETREFF/Dok {$PAGE. Seite}.

Das Page-Eingabefeld wird mit 1 initialisiert.

Ziel JPG

Die Datei wird direkt nach
/home/srichter/2023/02/Demo/Dok 1. Seite.jpg gescannt.
Danach wird der Zähler erhöht, die nachfolgende Seite wird als
/home/srichter/2023/02/Demo/Dok 2. Seite.jpg gescannt.

Ziel PDF

Die erste Datei wird als
/home/srichter/2023/02/Demo/Dok 1. Seite.jpg
gescannt und dann zu
/home/srichter/2023/02/Demo/Dok 1. Seite.pdf konvertiert. Die nächste Seite wäre dann entsprechend
/home/srichter/2023/02/Demo/Dok 2. Seite.jpg
↓
/home/srichter/2023/02/Demo/Dok 2. Seite.pdf

Ziel PDF-OCR

Die erste Datei wird als
/home/srichter/2023/02/Demo/Dok 1. Seite.jpg
gescannt und dann zu
/home/srichter/2023/02/Demo/Dok 1. Seite.tmp.png konvertiert. Nach der Texterkennung ist die Ausgabe-Datei
/home/srichter/2023/02/Demo/Dok 1. Seite.pdf. Für die nächste Seite wäre dann entsprechend
/home/srichter/2023/02/Demo/Dok 12. Seite.jpg
↓
/home/srichter/2023/02/Demo/Dok 2. Seite.tmp.pdf
↓
/home/srichter/2023/02/Demo/Dok 1. Seite.pdf die Ausgabe.

Zusammenfügen

In den letzten Beiden fällen ergäbe das Zusammenfügen dann /home/srichter/2023/02/Demo/Dok.pdf

2.7 KiB Raw Permalink Blame History

Ideen

Stand

Gewünschtes Verfahren

Ziel JPG

Ziel PDF

Ziel PDF+OCR

Mehrseitige Dokumente

Ziel JPG

Ziel PDF

Ziel PDF-OCR

Zusammenfügen

2.7 KiB

Raw Permalink Blame History