Ich habe soetwas ähnliches mal für Rechnungen basteln wollen

> Was "Struktur erhalten" heisst, weiss ich nicht, auch mit "RegEx" kann ich leider nichts anfangen.
Deine Dokumente mit den Terminen sollen gescannt werden und dann sollen die Termine eingetragen werden.

Aber woran erkennt man einen Termin und wie das, was eingetragen werden soll?
Wahrscheinlich -Annahme,denn ich kenne Deine Dokumente nicht- wird es so sein, daß immer an der gleichen Stelle das Datum, die Uhrzeit, Ort, Anlaß, Teilnehmer steht - vielleicht alles in einer Zeile, vielleicht in Spalten oder , oder, oder

Diese "Struktur" muß erkannt und verarbeitet werden. Wenn beim Scannen ein reines Textdokument generiert wird, kann man anhand des Wissen über die Struktur den Text wieder in Termine umwandeln.

Dazu muß aber das Textdokument das Aussehen des ursprünglichen Dokuments abbilden, dann kann man (jetzt kommen die RegEx regulärere Ausdrücke [wikipedia.org] z.B. immer nach einem Datum suchen, da sich ein Datum relativ leicht fomal beschreiben läßt, weil es nur aus drei Teilen Tag Monat Jahr mit definierten Trennzeichen besteht (Sonderfälle außen vor). Wenn man das Datum gefunden hat, kann man das als Ausgangspunkt für das Finden der anderen Informationen (wie z.B. Ort, Anlaß, Teilnehmer) verwenden, z.B. Uhrzeit steht immer vor dem Datum, der Ort dahinter usw.

Um diese einzelnen Informationen fassen zu bekommen, definiert man wieder Regeln z.B. Teilnehmernamen erkennt man daran, daß "Herr / Frau / usw. "davor steht, danach kommt dann der Name, ist es nur ein Textelement vor dem nächsten Komma/Semicolon oder "Herr / Frau / usw." ist es der Nachname sonst Vorname und Nachname usw. usw.

Das ist also nicht wirklich trivial. Wenn Scan Programme durchsuchbare PDFs generieren, können sie entweder versuchen die Struktur (die Anordnung, das Aussehen) möglicht abzubilden oder sie schieben alles in einen Textblock.

Ich habe hier mal versucht Rechnungen einzuscannen, automatisch den Rechnungsbetrag zu finden und diesen dann in eine Datenbank zu schreiben. Mein Abbyy Finereader OCRt zwar den Text, aber die Struktur geht kaputt.

So steht in der Rechnung in einer Zeile "Summe: 123,45 Euro" im Text allerdings hat er daraus zwei Spalten gemacht, so daß ich nicht mehr erkenne, auf welche Zeile sich das "Summe" und der Betrag bezieht.
Kann man auch gut sehen, wenn man OCRte Dokumente in Word o.ä. öffnet, bestenfalls sieht alles richtig positioniert aus, aber wehe man klickt irgendwo rein.

Daher die Frage nach der Güte des OCR bzw. ob die Struktur erhalten bleibt. Denn ohne das, bekommt man die Termine nur als einzelne Textbrocken richtig erkannt, aber nicht was sie darstellen sollen.