OCR PDF

Jak działa OCR

OCR PDF używa optycznego rozpoznawania znaków (z ang. optical character recognition), aby wykrywać tekst na zeskanowanych lub obrazowych stronach PDF. Może utworzyć przeszukiwalny PDF, dodając ukrytą warstwę tekstową nad oryginalnymi stronami, a także wyeksportować rozpoznaną treść jako zwykły tekst do kopiowania lub edycji.

W uproszczeniu, OCR odczytuje tekst z obrazu. Jeśli Twój PDF powstał ze skanów lub zdjęć, tekst tylko wygląda jak czytelny, ale w praktyce nie da się go zaznaczyć ani wyszukać. OCR analizuje każdą stronę, rozpoznaje litery i słowa wizualnie, a potem zamienia je w prawdziwy tekst, który rozumie Twoje urządzenie.

To różni się od typowego narzędzia PDF na tekst. Jeśli PDF już zawiera tekst możliwy do zaznaczenia, tamto narzędzie po prostu od razu go wyciąga. OCR jest potrzebne tylko wtedy, gdy PDF nie ma prawdziwej warstwy tekstowej i wszystko jest wyłącznie obrazem; na przykład przy skanach, zdjęciach lub wydrukowanych dokumentach zapisanych jako PDF.

Kiedy używać tego narzędzia

OCR przydaje się wtedy, gdy tekst jest widoczny na stronie, ale nie możesz go wyszukiwać, zaznaczać ani kopiować z pliku PDF.

Zamień zeskanowany dokument papierowy w przeszukiwalny PDF.
Rozpoznaj tekst ze skanów z telefonu zapisanych jako PDF.
Odzyskaj tekst z PDF-ów będących wyłącznie obrazem, których nie da się normalnie kopiować.
Wyciągnij czytelny tekst ze starych raportów, listów, faktur lub zarchiwizowanych dokumentów.

Chcesz wyciągnąć tekst z PDF-a, który już ma tekst możliwy do zaznaczenia? Użyj wyodrębniania tekstu z PDF do zwykłego tekstu. Potrzebujesz obrazów stron zamiast tekstu z OCR? Wypróbuj konwersję stron PDF na obrazy. Chcesz najpierw przetworzyć tylko wybrane strony? Użyj wyodrębniania wybranych stron PDF do nowego pliku.

Instrukcja krok po kroku: uruchom OCR na PDF-ie

Przygotowanie przeszukiwalnego PDF-a zajmuje tylko kilka kroków:

Dodaj PDF. Przeciągnij plik do pola powyżej albo kliknij, aby wybrać go z urządzenia.
Wybierz język OCR. Użyj automatycznego wykrywania albo ręcznie wybierz główny język dokumentu.
Wybierz zakres stron. Uruchom OCR na wszystkich stronach albo kliknij wybrane strony ręcznie.
Wybierz wynik. Domyślnie zaznaczony jest przeszukiwalny PDF, ale możesz też wyeksportować plik tekstowy.
Wybierz widoczność podglądu tekstu. Włącz podgląd rozpoznanego tekstu tylko wtedy, gdy chcesz go zobaczyć pod stronami.
Uruchom OCR. Narzędzie przetwarza strony w przeglądarce i tworzy wynik lokalnie.

Co zawiera wynik

Przeszukiwalny PDF: wygląd strony pozostaje taki sam, a dodawana jest ukryta warstwa tekstowa, dzięki której można wyszukiwać, zaznaczać i kopiować tekst w zgodnych przeglądarkach PDF.
Plik tekstowy: zwykły eksport .txt z rozpoznaną treścią do dalszego użycia, poprawiania lub wklejania gdzie indziej.
Opcjonalny podgląd: możesz wyświetlić podgląd rozpoznanego tekstu przed zapisaniem, jeśli chcesz sprawdzić jakość OCR.

OCR zwykle nie odtwarza idealnie oryginalnego układu dokumentu jako edytowalnego tekstu. Najlepiej sprawdza się do rozpoznawania, wyszukiwania, kopiowania i podstawowego odzyskiwania tekstu.

Prywatność, limity i sposób przetwarzania plików

FileYoga działa według prostej zasady: Twoje pliki zostają u Ciebie. OCR działa lokalnie w przeglądarce, więc Twoje PDF-y nigdy nie są przesyłane na serwery FileYoga.

Przetwarzanie tylko lokalnie

OCR działa w Twojej przeglądarce na Twoim urządzeniu. PDF nie jest przesyłany, a pliki wynikowe są tworzone po Twojej stronie.

Brak ukrytych kopii

Gdy wyczyścisz plik albo zamkniesz kartę, narzędzie przestaje korzystać z Twojego PDF-a i nie zapisuje żadnych kopii na serwerze.

Brak sztucznych limitów

Bez paywalla i bez limitów użycia. Rzeczywiste ograniczenia wynikają z szybkości urządzenia, pamięci przeglądarki, liczby stron i jakości skanu.

Bez zakładania konta

Korzystaj z narzędzia bez rejestracji. Otwórz stronę, uruchom OCR, zapisz wynik i zamknij kartę, gdy skończysz.

Praktyczne wskazówki

Wybierz język OCR ręcznie, jeśli znasz główny język dokumentu.
Wyraźne, kontrastowe i proste skany zwykle dają lepsze wyniki OCR niż rozmyte, krzywe lub zacienione strony.
Uruchamiaj OCR tylko na potrzebnych stronach, jeśli PDF jest duży albo Twoje urządzenie działa wolniej.
Użyj podglądu rozpoznanego tekstu, gdy dokładność ma znaczenie przed zapisaniem końcowego wyniku.
Jeśli przeszukiwalny PDF po OCR stanie się większy, skompresuj go później.
Dokumenty wielojęzyczne mogą wymagać osobnych uruchomień, jeśli różne grupy stron mają inny dominujący język.

Rozwiązywanie problemów

OCR działa wolno: duże PDF-y, strony w wysokiej rozdzielczości i wiele zeskanowanych stron potrzebują więcej czasu, bo każda strona jest analizowana w przeglądarce.
Jakość rozpoznawania jest słaba: skan może być rozmyty, niskiej jakości, przekrzywiony, zaszumiony albo zrobiony przy słabym oświetleniu.
Automatyczne wykrywanie wybrało zły język: uruchom OCR ponownie i ustaw ręcznie główny język dla lepszej dokładności.
Przeszukiwalny PDF wygląda tak samo: to normalne — widoczna strona zwykle się nie zmienia, tylko dodawany jest ukryty tekst do wyszukiwania.
Niektóre słowa są błędne albo ich brakuje: ozdobne czcionki, pismo odręczne, tabele, pieczątki, niski kontrast i mieszane języki mogą obniżyć skuteczność OCR.
Błąd przy PDF-ie: plik może być uszkodzony, zaszyfrowany, zbyt złożony albo zbyt ciężki dla przeglądarki — zapisz go ponownie w komputerowej aplikacji PDF i spróbuj jeszcze raz.

Najczęściej zadawane pytania

Czy to sprawi, że zeskanowany PDF będzie przeszukiwalny?

Czy mogę zapisać tylko rozpoznany tekst bez PDF-a?

Czy automatyczne wykrywanie języka zawsze jest dokładne?

Czy mogę uruchomić OCR tylko na kilku stronach zamiast na całym PDF-ie?

Czy OCR zachowa oryginalny wygląd strony?

Czy to rozpozna pismo odręczne albo bardzo słabe skany?

Jaka jest różnica między OCR PDF a PDF na tekst?

Czy moje pliki są przesyłane na serwery FileYoga?

Warto wiedzieć

Uruchom OCR na zeskanowanym PDF-ie

Jak działa OCR

Kiedy używać tego narzędzia

Instrukcja krok po kroku: uruchom OCR na PDF-ie

Co zawiera wynik

Prywatność, limity i sposób przetwarzania plików

Przetwarzanie tylko lokalnie

Brak ukrytych kopii

Brak sztucznych limitów

Bez zakładania konta

Praktyczne wskazówki

Rozwiązywanie problemów

Najczęściej zadawane pytania

OCR PDF

Warto wiedzieć

Jak działa OCR

Kiedy używać tego narzędzia

Instrukcja krok po kroku: uruchom OCR na PDF-ie

Co zawiera wynik

Prywatność, limity i sposób przetwarzania plików

Przetwarzanie tylko lokalnie

Brak ukrytych kopii

Brak sztucznych limitów

Bez zakładania konta

Praktyczne wskazówki

Rozwiązywanie problemów

Najczęściej zadawane pytania

Powiązane narzędzia