Wielosilnikowe parsowanie dokumentów
Właściwy silnik parsowania dla każdego dokumentu
Vision AI do układów wizualnych, Text AI do zwykłego tekstu, szablony do standardowych formularzy. Wszystkie trzy silniki działają w tej samej skrzynce odbiorczej.
Co jest w zestawie
Ekstrakcja przez Vision AI
Modele wizyjne odczytują strony jako obrazy, a nie tekst. AI widzi dokument tak jak człowiek, z pełnym kontekstem układu i sygnałami wizualnymi.
- Idealne dla złożonych PDF-ów, skanów i formularzy o trudnej strukturze
- Rozumie pismo odręczne, pola wyboru, pieczątki i wskazówki z układu
- Konfiguracja prostymi poleceniami po angielsku, bez szablonów
Ekstrakcja przez Text AI
Dokumenty są najpierw konwertowane na tekst, z użyciem OCR, jeśli brak natywnej warstwy tekstowej. AI analizuje sam tekst, bez układu i obrazów.
- Idealny do e-maili i prostych PDF-ów z głównie tekstem
- Sprawdza się, gdy układ wizualny nie wnosi dodatkowych informacji
- Konfiguracja prostymi poleceniami po angielsku, bez szablonów
Ekstrakcja oparta na szablonach
Dodaj do skrzynki dowolną liczbę szablonów. Parseur sam dobierze najlepiej pasujący szablon dla każdego dokumentu i zwróci powtarzalny wynik bez udziału AI.
- Najlepsza opcja dla standardowych formularzy i e-maili z systemów
- Najwyższa niezawodność, gdy układ dokumentów jest stały
- Konfiguracja w wizualnym edytorze, osobny szablon dla każdego układu
Ekstrakcja tabel i pozycji
Każdy wiersz tabeli staje się osobnym rekordem, a nie jednym połączonym polem. Działa we wszystkich trzech silnikach. Arkusze kalkulacyjne traktowane są jako tabele automatycznie.
- Obsługa zmiennej liczby wierszy w różnych dokumentach
- Rozpoznawanie tabel obejmujących wiele stron
- Silniki AI rozbijają złożone wpisy wielowierszowe na pojedyncze pola
OCR dla skanów i obrazów
Optyczne Rozpoznawanie Znaków (OCR) odczytuje tekst ze skanów, zdjęć z telefonu i PDF-ów obrazowych. Zasila silnik Text AI oraz szablony, gdy brak warstwy tekstowej.
- Działa na skanach, zdjęciach z telefonu i PDF-ach obrazowych
- Strefowy OCR obsługuje ponad 200 języków, w tym pismo odręczne
- Silnik szablonowy korzysta ze strefowego i dynamicznego OCR
Wstępne przetwarzanie dokumentów
Skuteczna ekstrakcja zaczyna się od oczyszczenia i naprawy dokumentów. Wstępne przetwarzanie w Parseur powstało dzięki 100 mln+ dokumentów i dekadzie doświadczenia.
- Prostuje skany i ponawia OCR przy zniekształconym tekście
- Naprawia PDF-y, błędne kodowanie maili i HTML
- Automatycznie wykrywa krajowe formaty dat i liczb
Jak działa parsowanie dokumentów
Co właśnie się wydarzyło
Przyjęcie dokumentu
Dokumenty zostały przesłane lub dotarły automatycznie przez e-mail, API albo zintegrowaną przestrzeń dyskową.
Wstępne przetwarzanie
Każdy dokument przechodzi wstępne oczyszczenie. Parseur poprawia orientację stron, prostuje przekrzywione skany i naprawia zniekształcone lub chaotyczne treści, gdy to konieczne.
OCR
Dla skanów, zdjęć z telefonu i PDF-ów obrazowych Parseur uruchamia OCR, aby wydobyć tekst. Dokumenty z natywną warstwą tekstową pomijają ten etap.
Wybór silnika
Parseur automatycznie wskazuje właściwy silnik parsowania. Pierwszeństwo ma mechanizm szablonowy, gdy pasujący szablon jest dostępny. W przeciwnym razie Vision AI analizuje dokumenty graficzne, a Text AI tekstowe.
Ekstrakcja
Wybrany silnik wydobywa ustrukturyzowane pola z dokumentu według schematu zdefiniowanego w skrzynce. W kolejnym kroku każde pole trafia do normalizacji i walidacji.
Co dzieje się dalej
Normalizacja i walidacja danych
Wyodrębnione pola są sprawdzane, formatowane i przygotowywane do dalszych etapów pracy.