Silnik OCR do parsowania dokumentów PDF

Cześć, jestem Sylvain i rozwijam oprogramowanie w Parseur. Właśnie udostępniliśmy naszą największą jak dotąd funkcję: nowy system wizualnego parsowania plików PDF.

Nowość: Wizualna ekstrakcja danych z PDF

Parsowanie dokumentów PDF z użyciem OCR to najczęściej zgłaszana potrzeba na naszej stronie feature upvote.

Większa niezawodność dla złożonych dokumentów

Dotychczas konwertowaliśmy pliki PDF na tekst, starając się zachować pierwotny układ strony. To rozwiązanie świetnie sprawdzało się w prostych dokumentach (dlatego właśnie pozostawiamy silnik tekstowy do wyboru obok nowego silnika).

Jednak nasz dotychczasowy, tekstowy silnik miał problemy z wiarygodnym wydobywaniem danych ze skomplikowanych plików PDF.

Dlatego prezentujemy nowy silnik, oparty na OCR (Optical Character Recognition). Edytor szablonów OCR pozwala tworzyć szablony poprzez zaznaczanie prostokątnych obszarów wokół fragmentów tekstu, które chcesz wydobyć. Możesz także definiować etykiety, które działają jako punkty orientacyjne lub kotwice w dokumencie, pomagając silnikowi dokładnie pozycjonować pola na stronie.

Więcej szczegółowych informacji znajdziesz na naszej stronie pomocy: Stwórz swój pierwszy szablon OCR.

Pola opcjonalne wreszcie dostępne!

Nowy silnik umożliwia definiowanie pól opcjonalnych i jest bardziej odporny na drobne zmiany w układzie dokumentów. Tworzenie szablonów jest szybsze i łatwiejsze do modyfikowania, bez konieczności budowania szablonów od nowa. W ramach jednego szablonu możesz dodać wiele próbek, co pozwala uwzględnić pola występujące tylko w części dokumentów.

Pełna zgodność wsteczna

Wszystkie dotychczasowe funkcjonalności, takie jak tabele, metadane, post-processing czy pola statyczne, działają również z nowym silnikiem. Format wynikowych danych oraz webhooki pozostają bez zmian.

Nowy silnik pracuje równolegle z aktualnym i możesz jednocześnie używać szablonów obu silników w jednej skrzynce odbiorczej, aby osiągnąć najlepsze efekty.

Jeśli w skrzynce odbiorczej znajdują się zarówno szablony tekstowe, jak i OCR, priorytet ma szablon zawierający najwięcej pól.

Rozliczanie według liczby stron

Za każdą skutecznie przetworzoną stronę naliczany jest jeden kredyt. Jeżeli dokument nie jest podzielony na strony (np. długi e-mail lub arkusz), na potrzeby rozliczania traktowany jest jako pojedynczy dokument i naliczany jest tylko jeden kredyt — jak dotychczas.

Co dalej?

Po zakończeniu wersji beta i udostępnieniu nowego silnika OCR wszystkim użytkownikom planujemy rozszerzyć go także na wszystkie dokumenty HTML, w tym e-maile i strony internetowe.

Aktualizacje na żywo: postępy prac do wydania publicznego

Kwiecień 2022

  • Dodano możliwość ustawiania marginesów nagłówka i stopki dla pól tabeli.
  • Dodano opcję dzielenia PDF na kilka dokumentów co X stron.
  • Rozszerzono opcję scalania wierszy w polach tabelarycznych.
  • Ulepszono komunikaty błędów na poziomie pól w edytorze szablonów i narzędziu debugowania.
  • Zwiększono precyzję działania silnika parsowania.
  • Poprawiono doświadczenie użytkownika w edytorze szablonów.
  • Usunięto błędy zgłoszone przez naszych odważnych beta-testerów.

Maj 2022

  • Do programu beta dołączyli nowi użytkownicy.
  • Dodano zarządzanie próbkami szablonów (dodawanie opisów, usuwanie próbek).
  • Usprawniono edytor szablonów: podświetlanie pól opcjonalnych oraz etykiet powiązanych z polami po najechaniu.
  • Poprawiono dokładność ekstrakcji tekstu dzięki wykorzystaniu zakodowanej w PDF warstwy tekstowej (jeśli jest dostępna) zamiast OCR.
  • Udostępniono program beta do samodzielnej rejestracji na stronie konta.
  • Naprawiono błędy zgłoszone przez użytkowników.

Czerwiec 2022

  • Jesteśmy blisko publicznego wydania. Wielu klientów korzysta już codziennie z nowego silnika do przetwarzania swoich plików PDF!
  • Program beta został rozszerzony o kolejnych użytkowników.
  • Poprawiono wykrywanie linii oraz ekstrakcję pól wielowierszowych.
  • Ulepszono identyfikację i eksport wierszy oraz komórek w tabelach.
  • Powstały nowe materiały pomocnicze: Tworzenie szablonu OCR, Wykorzystanie etykiet do pozycjonowania pól, Ekstrakcja tabel PDF.
  • Rozwiązano kolejne zgłoszone przez klientów błędy (dziękujemy wszystkim za pomoc!).

Lipiec 2022: Jesteśmy na żywo 🎉

Po miesiącach intensywnych prac i wielu tygodniach testów, silnik OCR jest dostępny dla wszystkich! To czwarta wersja Parseur — nasza największa do tej pory aktualizacja.

  • Włączono silnik Zone OCR dla wszystkich użytkowników
  • Naprawiono liczne błędy i usprawniono obsługę dzięki wielu drobnym poprawkom
  • Opublikowano 13-minutowy tutorial pokazujący, jak wydobywać tekst z PDF-ów, korzystając z naszego nowego silnika OCR:

Ostatnia aktualizacja

Oprogramowanie do ekstrakcji danych opartych na AI.
Zacznij korzystać z Parseur już dziś.

Automatyzuj wyodrębnianie tekstu z e-maili, PDF-ów i arkuszy kalkulacyjnych.
Oszczędzaj setki godzin ręcznej pracy.
Postaw na automatyzację pracy z AI.

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot