OCR PDF

Rozpoznawaj tekst w skanowanych lub obrazowych plikach PDF bezpośrednio w przeglądarce. Zamień strony bez możliwości wyszukiwania w przeszukiwalny PDF, w razie potrzeby wyeksportuj rozpoznany tekst jako plik .txt i opcjonalnie sprawdź wynik OCR przed zapisaniem. To narzędzie najlepiej sprawdza się przy skanach, PDF-ach utworzonych ze zdjęć i dokumentach, w których tekst jest widoczny, ale nie można go zaznaczyć. Cały proces działa na Twoim urządzeniu, bez przesyłania plików, bez konta i bez zapisywania na serwerze.

Wejście: PDF (.pdf)
OCR: Rozpoznawanie tekstu ze skanów
Całe przetwarzanie odbywa się bezpośrednio na Twoim urządzeniu

Warto wiedzieć

To narzędzie zostało stworzone z myślą o skanowanych PDF-ach i stronach będących obrazem. Rozpoznaje widoczny tekst, zachowuje oryginalny wygląd strony i może dodać ukrytą warstwę tekstową do wyszukiwania pod obrazem strony. Dokładność OCR zależy od jakości skanu, wyboru języka, czytelności strony i układu oryginalnego dokumentu.

  • Wejście: pliki PDF (.pdf).
  • Wyjście: domyślnie przeszukiwalny plik .pdf, z opcjonalnym eksportem rozpoznanego tekstu do .txt.
  • Najlepsze zastosowanie: skany, PDF-y ze zdjęć, dokumenty w stylu faksu i pliki PDF bez możliwego do zaznaczenia tekstu.
  • Wybór języka ma znaczenie: ręczne ustawienie języka jest zwykle dokładniejsze niż automatyczne wykrywanie, gdy znasz język dokumentu.
  • Prywatność: Twój PDF nigdy nie opuszcza urządzenia, nic nie jest przesyłane na serwery FileYoga.

Uruchom OCR na zeskanowanym PDF-ie

Dodaj jeden plik PDF, wybierz ustawienia OCR, rozpoznaj tekst i zapisz przeszukiwalny wynik.
Upuść plik PDF tutaj
albo kliknij, aby przeglądać
Obsługuje pliki .pdf. Pliki są przetwarzane w Twojej przeglądarce i nigdy nie są przesyłane na serwer.

Jak działa OCR

OCR PDF używa optycznego rozpoznawania znaków (z ang. optical character recognition), aby wykrywać tekst na zeskanowanych lub obrazowych stronach PDF. Może utworzyć przeszukiwalny PDF, dodając ukrytą warstwę tekstową nad oryginalnymi stronami, a także wyeksportować rozpoznaną treść jako zwykły tekst do kopiowania lub edycji.

W uproszczeniu, OCR odczytuje tekst z obrazu. Jeśli Twój PDF powstał ze skanów lub zdjęć, tekst tylko wygląda jak czytelny, ale w praktyce nie da się go zaznaczyć ani wyszukać. OCR analizuje każdą stronę, rozpoznaje litery i słowa wizualnie, a potem zamienia je w prawdziwy tekst, który rozumie Twoje urządzenie.

To różni się od typowego narzędzia PDF na tekst. Jeśli PDF już zawiera tekst możliwy do zaznaczenia, tamto narzędzie po prostu od razu go wyciąga. OCR jest potrzebne tylko wtedy, gdy PDF nie ma prawdziwej warstwy tekstowej i wszystko jest wyłącznie obrazem; na przykład przy skanach, zdjęciach lub wydrukowanych dokumentach zapisanych jako PDF.


Kiedy używać tego narzędzia

OCR przydaje się wtedy, gdy tekst jest widoczny na stronie, ale nie możesz go wyszukiwać, zaznaczać ani kopiować z pliku PDF.

  • Zamień zeskanowany dokument papierowy w przeszukiwalny PDF.
  • Rozpoznaj tekst ze skanów z telefonu zapisanych jako PDF.
  • Odzyskaj tekst z PDF-ów będących wyłącznie obrazem, których nie da się normalnie kopiować.
  • Wyciągnij czytelny tekst ze starych raportów, listów, faktur lub zarchiwizowanych dokumentów.

Chcesz wyciągnąć tekst z PDF-a, który już ma tekst możliwy do zaznaczenia? Użyj wyodrębniania tekstu z PDF do zwykłego tekstu. Potrzebujesz obrazów stron zamiast tekstu z OCR? Wypróbuj konwersję stron PDF na obrazy. Chcesz najpierw przetworzyć tylko wybrane strony? Użyj wyodrębniania wybranych stron PDF do nowego pliku.

Instrukcja krok po kroku: uruchom OCR na PDF-ie

Przygotowanie przeszukiwalnego PDF-a zajmuje tylko kilka kroków:

  • Dodaj PDF. Przeciągnij plik do pola powyżej albo kliknij, aby wybrać go z urządzenia.
  • Wybierz język OCR. Użyj automatycznego wykrywania albo ręcznie wybierz główny język dokumentu.
  • Wybierz zakres stron. Uruchom OCR na wszystkich stronach albo kliknij wybrane strony ręcznie.
  • Wybierz wynik. Domyślnie zaznaczony jest przeszukiwalny PDF, ale możesz też wyeksportować plik tekstowy.
  • Wybierz widoczność podglądu tekstu. Włącz podgląd rozpoznanego tekstu tylko wtedy, gdy chcesz go zobaczyć pod stronami.
  • Uruchom OCR. Narzędzie przetwarza strony w przeglądarce i tworzy wynik lokalnie.

Co zawiera wynik

  • Przeszukiwalny PDF: wygląd strony pozostaje taki sam, a dodawana jest ukryta warstwa tekstowa, dzięki której można wyszukiwać, zaznaczać i kopiować tekst w zgodnych przeglądarkach PDF.
  • Plik tekstowy: zwykły eksport .txt z rozpoznaną treścią do dalszego użycia, poprawiania lub wklejania gdzie indziej.
  • Opcjonalny podgląd: możesz wyświetlić podgląd rozpoznanego tekstu przed zapisaniem, jeśli chcesz sprawdzić jakość OCR.

OCR zwykle nie odtwarza idealnie oryginalnego układu dokumentu jako edytowalnego tekstu. Najlepiej sprawdza się do rozpoznawania, wyszukiwania, kopiowania i podstawowego odzyskiwania tekstu.

Prywatność, limity i sposób przetwarzania plików

FileYoga działa według prostej zasady: Twoje pliki zostają u Ciebie. OCR działa lokalnie w przeglądarce, więc Twoje PDF-y nigdy nie są przesyłane na serwery FileYoga.

Przetwarzanie tylko lokalnie

OCR działa w Twojej przeglądarce na Twoim urządzeniu. PDF nie jest przesyłany, a pliki wynikowe są tworzone po Twojej stronie.

Brak ukrytych kopii

Gdy wyczyścisz plik albo zamkniesz kartę, narzędzie przestaje korzystać z Twojego PDF-a i nie zapisuje żadnych kopii na serwerze.

Brak sztucznych limitów

Bez paywalla i bez limitów użycia. Rzeczywiste ograniczenia wynikają z szybkości urządzenia, pamięci przeglądarki, liczby stron i jakości skanu.

Bez zakładania konta

Korzystaj z narzędzia bez rejestracji. Otwórz stronę, uruchom OCR, zapisz wynik i zamknij kartę, gdy skończysz.

Praktyczne wskazówki

  • Wybierz język OCR ręcznie, jeśli znasz główny język dokumentu.
  • Wyraźne, kontrastowe i proste skany zwykle dają lepsze wyniki OCR niż rozmyte, krzywe lub zacienione strony.
  • Uruchamiaj OCR tylko na potrzebnych stronach, jeśli PDF jest duży albo Twoje urządzenie działa wolniej.
  • Użyj podglądu rozpoznanego tekstu, gdy dokładność ma znaczenie przed zapisaniem końcowego wyniku.
  • Jeśli przeszukiwalny PDF po OCR stanie się większy, skompresuj go później.
  • Dokumenty wielojęzyczne mogą wymagać osobnych uruchomień, jeśli różne grupy stron mają inny dominujący język.

Rozwiązywanie problemów

  • OCR działa wolno: duże PDF-y, strony w wysokiej rozdzielczości i wiele zeskanowanych stron potrzebują więcej czasu, bo każda strona jest analizowana w przeglądarce.
  • Jakość rozpoznawania jest słaba: skan może być rozmyty, niskiej jakości, przekrzywiony, zaszumiony albo zrobiony przy słabym oświetleniu.
  • Automatyczne wykrywanie wybrało zły język: uruchom OCR ponownie i ustaw ręcznie główny język dla lepszej dokładności.
  • Przeszukiwalny PDF wygląda tak samo: to normalne — widoczna strona zwykle się nie zmienia, tylko dodawany jest ukryty tekst do wyszukiwania.
  • Niektóre słowa są błędne albo ich brakuje: ozdobne czcionki, pismo odręczne, tabele, pieczątki, niski kontrast i mieszane języki mogą obniżyć skuteczność OCR.
  • Błąd przy PDF-ie: plik może być uszkodzony, zaszyfrowany, zbyt złożony albo zbyt ciężki dla przeglądarki — zapisz go ponownie w komputerowej aplikacji PDF i spróbuj jeszcze raz.

Najczęściej zadawane pytania