Normalizacja i walidacja danych

Spójna struktura i czyste dane z każdego dokumentu

Od schematów skrzynek po post-processing — każda wyodrębniona wartość trafia do systemów docelowych czysta, zwalidowana i gotowa do użycia.

Załóż darmowe konto

Co jest w zestawie

Schematy na poziomie skrzynki

Spójny schemat to coś, co sprawia, że integracje i automatyzacje są naprawdę niezawodne. Zdefiniuj swoje pola raz, a każdy dokument przetwarzany przez skrzynkę dopasuje się do tej samej struktury.

Standardowe pola dla pojedynczych wartości, pola tabeli dla powtarzających się danych
Instrukcje w języku naturalnym mówią AI, co wyodrębnić dla każdego pola
Edytuj pola w dowolnym momencie przez interfejs (UI) lub programowo przez API

Formatowanie na poziomie pola

Wbudowane formaty normalizują daty, liczby, adresy i wiele innych. Właściwy format jest wnioskowany z kontekstu dokumentu, a ustawienia domyślne skrzynki działają jako zabezpieczenie.

Daty są rozpoznawane niezależnie od kolejności, separatora lub nazwy miesiąca w różnych językach
Liczby rozpoznają dowolny separator dziesiętny/tysięczny w różnych formatach regionalnych
Pola adresowe geolokalizują i dzielą adresy na ustrukturyzowane części

Walidacja danych

Automatyczna walidacja danych sprawdza każdy wyodrębniony wynik ze schematem skrzynki. Błędy pojawiają się w interfejsie użytkownika, wyzwalają powiadomienie e-mail i uruchamiają webhook, dzięki czemu dowiadują się o nich zarówno zespoły operacyjne, jak i narzędzia.

Kontrola schematu potwierdza, że wynik AI pasuje do kształtu pola
Kontrola pól wymaganych wychwytuje brakujące wartości u źródła
Kontrola pól wyboru oznacza wartości spoza dozwolonej listy

Reguły post-processingu

Gdy standardowe formatowanie i walidacja nie wystarczą, dopisz krótki skrypt w Pythonie. Reguły uruchamiają się po ekstrakcji, aby przekształcić wartości lub przeprowadzić niestandardową walidację względem Twojej logiki biznesowej.

Łącz, dziel lub wyliczaj nowe pola z wyodrębnionych wartości
Stosuj logikę biznesową, wyszukiwania lub przekształcenia warunkowe
Dostępne w planie Pro i wyższych

Jak działa normalizacja danych

Co właśnie się wydarzyło

Ekstrakcja i parsowanie dokumentów przez AI

Vision AI, Text AI, szablony lub OCR wyodrębniły ustrukturyzowane pola z każdego dokumentu.

Dowiedz się więcej

Mapowanie do schematu

Wyekstrahowane wartości zostają przyporządkowane do stałego zestawu pól zdefiniowanego dla skrzynki. Każdy dokument, bez względu na układ źródłowy, kończy z takim samym układem kolumn na wyjściu.

Pola skrzynki

Tekst Dostawca Acme Corp

Tekst Nr faktury INV-0142

Data Wystawiono 2026-05-07

Liczba Suma 2840

Tabela Pozycje 3 kolumny, 2 wiersze

Pozycja Ilość Cena Konsultacje 12 200 USD Sprzęt 2 220 USD

Formatowanie

Każde pole przechodzi przez skonfigurowany format. Daty i liczby normalizują się w oparciu o regionalne różnice wykorzystując kontekst dokumentu, imiona dzielą się na imię/drugie imię/nazwisko, a adresy są parsowane na ustrukturyzowane części.

Data May 7, 2026 2026-05-07

Liczba $1,234.56 1234.56

Adres 742 Evergreen Ter, Springfield 62704

742 Evergreen Terrace Springfield IL 62704 USA

Walidacja

Każdy wynik przechodzi kontrole walidacji przed przejściem dalej. Dokumenty, które je przejdą, trafiają do post-processingu, a reszta jest oznaczana, dzięki czemu nic nie umknie uwadze w Parseur.

Walidacja

Dostawca Acme Corp

Wystawiono 2026-04-15

Suma Wymagane brak

Status odrzucone

Dozwolone: otwarte opłacone zamknięte

Post-processing

Opcjonalne reguły w Pythonie uruchamiane są na końcu, stosując logikę biznesową, której nie da się wyrazić poprzez formatowanie na poziomie pola. Łącz pola, wyszukuj dane referencyjne lub kształtuj wynik tak, aby dokładnie pasował do docelowego schematu.

post_process.py

def post_process(data):

if data["Suma"] > 1000:

data["Wysyłka"] = "ekspres"

else:

data["Wysyłka"] = "standard"

return data

Liczba Suma 2840

Tekst Wysyłka ekspres

Co dzieje się dalej

Eksporty i integracje w czasie rzeczywistym

Znormalizowane dane dostarczane są do Twojego CRM, systemu księgowego lub bazy danych w czasie rzeczywistym.

Dowiedz się więcej

Powrót do wszystkich funkcji

Czyste dane, gotowe dla Twoich systemów.

Zdefiniuj potrzebne pola, wybierz odpowiednie formaty i obserwuj, jak każda ekstrakcja przybiera właściwy kształt.

Darmowy plan, bez karty kredytowej

Pierwszy dokument przetworzysz w mniej niż 2 minuty

Rezygnujesz w każdej chwili, bez zobowiązań

Najczęściej zadawane pytania

Częste pytania o normalizację i walidację w Parseur – od formatów dat i liczb po reguły walidacji oraz post-processing w Pythonie.

Normalizacja danych to krok, który zamienia surowe, wyodrębnione wartości w czyste, spójnie ukształtowane dane. Daty z różnych dokumentów mają identyczny format, liczby są poprawnie odczytywane niezależnie od konwencji regionalnych, adresy są dzielone na ustrukturyzowane części, a każde pole jest mapowane do stałego schematu, dzięki czemu systemy docelowe zawsze otrzymują dane o takim samym kształcie.

Bez normalizacji, każdy dokument generuje nieco inne dane wyjściowe: daty w innej kolejności, liczby z innymi separatorami, imiona i adresy pomieszane w pojedyncze ciągi znaków. Narzędzia docelowe w końcu odrzucają wiersze lub przechowują niespójne dane. Normalizacja naprawia to u źródła, dzięki czemu integracje pozostają naprawdę niezawodne.

Pole Liczbowe odczytuje dowolny separator dziesiętny i tysięczny w formatach regionalnych, w tym konwencje europejskie (1.234,56) i amerykańskie (1,234.56), indyjskie grupowanie lakh i crore (np. 1,00,00,000), a także notację księgową, w której nawiasy oznaczają liczby ujemne, jak w przypadku ($123,456,789.12). Właściwy format jest wnioskowany z kontekstu dokumentu, a ustawienia domyślne skrzynki działają jako zabezpieczenie.

Parseur obsługuje formaty pól: Tekst, Data, Czas, Data i godzina, Liczba, Pełne imię i nazwisko, Adres oraz Wybór. Każdy format posiada własne reguły parsowania i walidacji, przy czym standardowe pola wychwytują pojedyncze wartości, a pola tabeli - powtarzające się dane wiersz po wierszu.

Status dokumentu zostaje ustawiony na Process Failed (Przetwarzanie nie powiodło się) zamiast po cichu go eksportować, a powiadomienie e-mail zostaje wysłane. Jeśli skonfigurowany jest webhook dla nieudanych procesów, również zostanie on wyzwolony. Możesz przejrzeć i naprawić dokument ręcznie, lub połączyć informacje o błędach z własnym systemem monitorowania.

Każda skrzynka posiada własny schemat, a każdy dokument przetwarzany przez skrzynkę jest przypisywany do tego samego, stałego zestawu pól. Dzięki temu pojedyncza skrzynka może przetwarzać faktury od wielu różnych dostawców, o wielu różnych układach, a mimo to na wyjściu zawsze podawać taki sam układ kolumn dla każdego wiersza.

Zdefiniuj pola, których oczekuje Twój system docelowy raz, w schemacie skrzynki Parseur, a każdy dokument zostanie do niego zmapowany. Formaty pól standaryzują daty, liczby, imiona i adresy w zależności od różnic regionalnych, automatyczna walidacja danych wyłapuje brakujące lub nieprawidłowe wartości przed eksportem, a opcjonalny post-processing w Pythonie obsługuje wszelką logikę biznesową, której standardowe formaty nie potrafią wyrazić. Dane trafiają do Twoich systemów już spójne, bez potrzeby używania skryptów czyszczących po drodze.

Pole Daty w Parseur rozpoznaje każdy układ, separator i nazwę miesiąca w wielu językach, a także wykorzystuje kontekst dokumentu do ujednoznacznienia dwuznacznych wartości, takich jak 03/04/2026. Dane wyjściowe są normalizowane do spójnego formatu, dzięki czemu system docelowy zawsze otrzymuje ten sam kształt.

Tak. Format Pełne imię i nazwisko dzieli nazwiska na imię, drugie imię i nazwisko. Format Adres geolokalizuje i dzieli adresy na ustrukturyzowane komponenty. Oba procesy uruchamiają się automatycznie po ustawieniu formatu pola.

Tak. Każdy wynik jest sprawdzany ze schematem skrzynki, reguły pól wymaganych wyłapują brakujące wartości, a reguły pól wyboru oznaczają wartości spoza dozwolonej listy. Błędy pojawiają się w interfejsie użytkownika (UI), wysyłają powiadomienie e-mail i wyzwalają webhook, dzięki czemu zarówno zespoły operacyjne, jak i Twoje narzędzia dowiadują się o nich.

Tak. Reguły post-processingu pozwalają na dodanie krótkiego skryptu w języku Python, który jest uruchamiany po ekstrakcji i standardowej walidacji. Użyj go do łączenia, dzielenia lub obliczania nowych pól z wyodrębnionych wartości, stosowania logiki biznesowej, uruchamiania wyszukiwań lub kształtowania danych wyjściowych tak, aby dokładnie pasowały do struktury w systemie docelowym. Dostępne w planie Pro i wyższych.