Normalizacja i walidacja danych

Spójna struktura i czyste dane z każdego dokumentu

Od schematu skrzynki po reguły końcowe — każde pole trafia do Twoich systemów uporządkowane, zwalidowane i gotowe do użycia.

Co jest w zestawie

Schematy na poziomie skrzynki

Definiujesz pola raz na poziomie skrzynki. Każdy dokument przetworzony w tej skrzynce zwraca dokładnie tę samą strukturę danych, gotową do dalszej automatyzacji.

  • Pola standardowe i pola tabeli dla danych wierszowych.
  • Instrukcje w języku naturalnym mówią AI, co wyodrębnić.
  • Edycja pól w interfejsie lub programowo przez API.

Formatowanie na poziomie pola

Wbudowane formaty normalizują daty, liczby, imiona i adresy. Format rozpoznawany jest z kontekstu dokumentu, a ustawienia skrzynki działają jako zabezpieczenie.

  • Daty rozpoznawane w dowolnym układzie i języku.
  • Liczby z dowolnym separatorem dziesiętnym i tysięcznym.
  • Adresy rozbijane automatycznie na ulicę, miasto, kod i kraj.

Walidacja danych

Każda wartość jest sprawdzana względem schematu skrzynki. Błędne pola widać w interfejsie, lecą też e-mailem i webhookiem do Twoich systemów operacyjnych.

  • Kontrola typu pola wyłapuje wartości niezgodne ze schematem.
  • Pola wymagane wychwytują braki, zanim dane pójdą dalej.
  • Pola wyboru oznaczają wartości spoza dozwolonej listy.

Reguły post-processingu

Gdy standardowe formaty nie wystarczą, dopisujesz krótki skrypt w Pythonie. Uruchamia się po ekstrakcji i pozwala przekształcać wartości według logiki biznesowej.

  • Łącz, dziel lub wylicz nowe pola z istniejących wartości.
  • Stosuj warunki, odwołania i własną logikę biznesową.
  • Funkcja dostępna w planie Pro i wyższych.

Jak działa normalizacja danych

Co właśnie się wydarzyło

Wielosilnikowe przetwarzanie dokumentów

Vision AI, Text AI, szablony lub OCR wyodrębniły ustrukturyzowane pola z każdego dokumentu.

Dowiedz się więcej
1

Mapowanie do schematu

Wyekstrahowane wartości zostają przyporządkowane do ustalonego zestawu pól przypisanego do skrzynki. Bez względu na oryginalny układ dokumentu, wszystkie dane trafiają do tego samego strukturalnego zestawu na wyjściu.

Pola skrzynki
Tekst Dostawca Acme sp. z o.o.
Tekst Nr faktury INV-0142
Data Wystawiono 2026-05-07
Liczba Suma 2840
Tabela Pozycje 3 kolumny, 2 wiersze
Pozycja Ilość Cena Konsultacje 12 800 zł Sprzęt 2 880 zł
2

Formatowanie

Każde pole trafia przez skonfigurowany format. Daty i liczby normalizowane są według różnych regionalnych wariantów w oparciu o kontekst dokumentu, imiona są rozdzielane na części, a adresy rozbijane na strukturalne komponenty.

Data May 7, 2026 2026-05-07
Liczba 1 234,56 zł 1234.56
Adres Marszalkowska 142, Warszawa
ul. Marszałkowska 142 Warszawa Mazowieckie 00-061 Polska
3

Walidacja

Każda uzyskana wartość jest poddawana walidacji zgodnie z ustalonym schematem, zanim trafi do kolejnego etapu. Dokumenty z błędami są odpowiednio oznaczane, tak by żaden przypadek nie umknął uwadze w Parseur.

Walidacja
Dostawca Acme sp. z o.o.
Wystawiono 2026-04-15
Suma Wymagane brak
Status odrzucone
Dozwolone: otwarte opłacone zamknięte
4

Post-processing

Opcjonalne reguły w Pythonie uruchamiane są na końcu i służą realizacji niestandardowej logiki biznesowej, której nie da się wyrazić przez samo ustawienie formatu pola. Możesz łączyć dane, korzystać z pól referencyjnych i precyzyjnie kształtować wynik pod systemy docelowe.

post_process.py
def post_process(data):
if data["Suma"] > 1000:
data["Wysyłka"] = "ekspres"
else:
data["Wysyłka"] = "standard"
return data
Liczba Suma 2840
Tekst Wysyłka ekspres

Co dzieje się dalej

Eksporty i integracje w czasie rzeczywistym

Znormalizowane dane przesyłane są w czasie rzeczywistym do Twojego CRM, systemu księgowości lub bazy danych.

Dowiedz się więcej
Zacznij teraz

Czyste dane gotowe do Twoich systemów.

Określ wymagane pola, wybierz właściwe formaty i patrz, jak każda wyodrębniona wartość trafia we właściwej postaci tam, gdzie jej potrzebujesz.

Darmowy plan, bez karty kredytowej
Pierwszy dokument przetworzysz w mniej niż 2 minuty
Rezygnujesz w każdej chwili, bez zobowiązań

Najczęściej zadawane pytania

Najczęstsze pytania o normalizację i walidację w Parseur – od formatów dat i liczb po reguły walidacji oraz post-processingu w Pythonie.

Normalizacja danych to etap, w którym surowe, wyodrębnione wartości zamieniane są na czyste i jednolicie ukształtowane dane. Dzięki temu daty pobrane z różnych dokumentów mają identyczny format, liczby są poprawnie odczytywane niezależnie od lokalnych konwencji, adresy rozbijane są na uporządkowane części, a wszystkie pola wpisują się w jeden schemat. To sprawia, że kolejne systemy zawsze otrzymują spójne dane gotowe do przetwarzania.

Pole Daty w Parseur rozpoznaje każdy układ, separator i nazwę miesiąca w wielu językach, wykorzystując kontekst dokumentu do rozstrzygania przypadków niejednoznacznych (np. 03/04/2026). Wynik jest zawsze normalizowany do jednego, spójnego formatu przekazywanego do systemu docelowego.

Tak. Format Pełne imię i nazwisko automatycznie oddziela imię, drugie imię i nazwisko. Z kolei Format Adres rozpoznaje adres i dzieli go na ustrukturyzowane komponenty. Wystarczy wybrać odpowiedni format pola, a przetwarzanie odbywa się automatycznie.

Tak. Każdy wynik jest poddawany sprawdzeniu względem schematu skrzynki, reguły pól wymaganych wyłapują braki, a pola wyboru oznaczają wartości spoza określonej listy. Wszystkie błędy wyświetlane są w UI, natychmiast wysyłane jest powiadomienie e-mail oraz wyzwalany jest webhook, dzięki czemu zespoły operacyjne i systemy integracyjne mają pełen wgląd.

Tak. Reguły post-processingu umożliwiają uruchomienie krótkiego skryptu w Pythonie po ekstrakcji i standardowej walidacji. Pozwala to np. łączyć, dzielić lub wyliczać nowe pola, stosować własną logikę biznesową i odwołania, a także precyzyjnie dostosowywać wyniki do wymagań systemów docelowych. Funkcjonalność dostępna jest w planie Pro i wyższych.

Bez normalizacji każdy dokument może generować dane o innej strukturze: daty w różnych formatach, liczby z innymi separatorami, czy imiona i adresy jako jedno pole. Kolejne narzędzia mogą wtedy odrzucać lub niepoprawnie interpretować rekordy, a w bazach gromadzą się niespójne dane. Normalizacja danych eliminuje ten problem u podstaw, zapewniając stabilne integracje.

Pole Liczbowe odczytuje liczby niezależnie od stosowanych separatorów dziesiętnych i tysięcznych, zgodnie z regionalnym standardem: europejskie 1.234,56, amerykańskie 1,234.56, indyjskie 1,00,00,000 czy księgowy format w nawiasach dla liczb ujemnych np. ($123,456,789.12). Właściwy format jest ustalany na podstawie kontekstu dokumentu lub domyślnego ustawienia skrzynki.

Parseur wspiera formaty: Tekst, Data, Godzina, Data i godzina, Liczba, Pełne imię i nazwisko, Adres i Wybór. Każdy format ma własne mechanizmy parsowania oraz reguły walidacji. Standardowe pola wyodrębniają pojedyncze wartości, natomiast pola tabeli pozwalają na przetwarzanie danych powtarzających się w wielu wierszach.

Status dokumentu zostaje ustawiony na Process Failed, a eksport danych jest blokowany. Użytkownik otrzymuje powiadomienie e-mail, a w przypadku skonfigurowania webhooka dla Process Failed – uruchamiane jest powiadomienie także tą drogą. Możesz ręcznie sprawdzić i poprawić dokument lub odesłać informacje o błędach do własnego systemu monitorowania.

Każda skrzynka posiada zdefiniowany własny schemat i każdy dokument przetworzony w tej skrzynce pasuje do tego samego zestawu pól. Dzięki temu nawet różne formaty dokumentów od licznych dostawców eksportują w Parseur zawsze identyczny układ danych – kluczowe dla dalszych automatyzacji i integracji.