Class AI_OCR

Stellt den AI.functionality bereit.

Remarks

Ursprünglicher Autor: Callari, Salvatore (Callari@WaXCode.net) Betreuer: Callari, Salvatore (Callari@WaXCode.net)

Index

Constructors

constructor

Methods

functionality

Constructors

constructor

new AI_OCR(): AI_OCR
Returns AI_OCR

Methods

`Static`functionality

functionality(toLoad: { [key: string]: unknown }, toProcess: Element): void
Diese Funktion scannt die ausgewählten Dateien eines HTMLInputElement, druckt den gescannten Text oder extrahiert ihn Teilzeichenfolgen aus dem gescannten Text oder überprüft mithilfe der Tesseract AI-OCR-Engine, ob der gescannte Text mit dem Muster übereinstimmt.

PDF-Unterstützung: PDF-Dateien werden automatisch erkannt. PDFs mit Text (>100 Zeichen) werden clientseitig ohne Text verarbeitet Verwendung des KI-Backends. PDFs mit minimalem Text (gescannte Dokumente) werden in Bilder gerendert und zur OCR an Tesseract gesendet.

Automatische Orientierungserkennung: Die Tesseract OCR-Engine erkennt und korrigiert die Bildausrichtung mithilfe ihres OSD (Orientation und Skripterkennung).

Konfigurationsparameter:
- Modus: Entweder Drucken, Überprüfen oder Felder extrahieren.
- Muster: Der RegEx, der verwendet werden soll, um entweder die Teilzeichenfolgen aus dem gescannten Text zu extrahieren oder dies zu überprüfen Der gescannte Text stimmt mit dem Muster überein. Wenn der Modus Felder extrahieren ist, werden alle Felder im übergeordneten Container des enthaltenden Containers angezeigt die HTMLInputElement toProcess, die die CodBi-CSS-Klasse CodBi_AI_OCR_Receiver haben Wird zum Empfangen der extrahierten Felder verwendet. Für jedes dieser Felder ein entsprechender Parameter Pattern_... muss definiert werden, um den RegEx anzugeben, der zum Extrahieren der Teilzeichenfolgen verwendet werden soll aus dem gescannten Text für dieses Feld. Der Name des Feldes wird nach dem Bindestrich angegeben und sind abgeglichen mit dem data-cb-Field des Felds, um die Teilzeichenfolgen aus dem gescannten Text zu extrahieren.
- Trennzeichen: Wenn Modus auf Felder extrahieren eingestellt ist, definiert dieser Parameter das Trennzeichen für die Ergebnisse von mehrere Dateien. Der Standardwert ist ein Komma.
- MaxPages: Maximale Anzahl zu verarbeitender PDF-Seiten (Standard: 5). Auf 0 setzen, um keine Begrenzung zu erhalten. Gilt nur für PDFs.
- RegExFlags: Optionale Regex-Flags, die auf alle Muster angewendet werden (z. B. „i“ für Groß-/Kleinschreibung, „m“ für mehrzeilig, „s“ für „dotall“). Mehrere Flags können kombiniert werden (z. B. „im“). Diese Flags werden an die übermittelt Tesseract-Servlet und auf Mustervergleich angewendet.
- Vorverarbeitung: Optionales boolesches Flag, um die Bildvorverarbeitung vor OCR zu aktivieren. Wenn auf true gesetzt, gilt Graustufenkonvertierung, adaptive Binarisierung (Otsu-Methode) und Rauschunterdrückung zur Verbesserung Genauigkeit der Texterkennung. Der Standardwert ist false.
- InvalidImageText: Der Text, der angezeigt werden soll, wenn eines oder mehrere der Bilder nicht dem angegebenen Muster in entsprechen Modus Überprüfen.
- WrongFileMessage: Der Text, der für die Beschriftung des Kontrollkästchens für die manuelle Überprüfung im Modus Verify angezeigt werden soll.
- ProcessingImageText: Der Text, der an die Bezeichnung des HTMLInputElement angehängt werden soll, während die Bilder verarbeitet werden verarbeitet werden.
- Maximal Die Anzahl der Dateien, die hochgeladen werden können. Wenn die Anzahl der ausgewählten Dateien diese Anzahl überschreitet, Die Verarbeitung wird abgebrochen und eine Warnung wird in der Konsole protokolliert.
- QueueBadge: Wenn auf „true“ gesetzt, wird ein Badge mit der aktuellen Warteschlangenposition angezeigt warte auf Schlussfolgerungen. Überschreibt die Plugin-Eigenschaft „AI_QueueBadge“. für diesen Fall. Standard: wird durch die Plugin-Eigenschaft bestimmt.
- QueueText: Text, der nach der Warteschlangenpositionsnummer im Ausweis angehängt wird (z. B. „in der Warteschlange“ → Abzeichen zeigt „3 in der Warteschlange“). Standard: leer.
CSS-Klassen:
- CodBi_AI_OCR_Receiver: Elemente mit dieser Klasse im übergeordneten Container desjenigen, der die enthält HTMLInputElement toProcess werden verwendet, um die extrahierten Felder zu empfangen, wenn Mode ist auf Felder extrahieren gesetzt. Für jedes dieser Elemente sollte data-cb-Field auf den Namen des Elements gesetzt sein Feld, für das der extrahierte Text empfangen werden soll (siehe Konfigurationsparameter Pattern_...). Im Druckmodus wird erwartet, dass ein einzelner Textbereich mit dieser Klasse den vollständigen OCR-Text empfängt Ausgabe.
Parameters
- toLoad: { [key: string]: unknown }
  Provided by the CodBi.
- toProcess: Element
  Provided by the CodBi.
Returns void
- Defined in packages/form/src_de_temp/Functionalities/ai.ocr.ts:84

Class AI_OCR

Remarks

Index

Constructors

Methods

Constructors

constructor

Returns AI_OCR

Methods

`Static`functionality

Konfigurationsparameter:

CSS-Klassen:

Parameters

Returns void

Settings

On This Page

Class AI_OCR

Remarks

Index

Constructors

Methods

Constructors

constructor

Returns AI_OCR

Methods

Staticfunctionality

Konfigurationsparameter:

CSS-Klassen:

Parameters

Returns void

Settings

On This Page

`Static`functionality