Jak działa OCR
OCR PDF używa optycznego rozpoznawania znaków (z ang. optical character recognition), aby wykrywać tekst na zeskanowanych lub obrazowych stronach PDF. Może utworzyć przeszukiwalny PDF, dodając ukrytą warstwę tekstową nad oryginalnymi stronami, a także wyeksportować rozpoznaną treść jako zwykły tekst do kopiowania lub edycji.
W uproszczeniu, OCR odczytuje tekst z obrazu. Jeśli Twój PDF powstał ze skanów lub zdjęć, tekst tylko wygląda jak czytelny, ale w praktyce nie da się go zaznaczyć ani wyszukać. OCR analizuje każdą stronę, rozpoznaje litery i słowa wizualnie, a potem zamienia je w prawdziwy tekst, który rozumie Twoje urządzenie.
To różni się od typowego narzędzia PDF na tekst. Jeśli PDF już zawiera tekst możliwy do zaznaczenia, tamto narzędzie po prostu od razu go wyciąga. OCR jest potrzebne tylko wtedy, gdy PDF nie ma prawdziwej warstwy tekstowej i wszystko jest wyłącznie obrazem; na przykład przy skanach, zdjęciach lub wydrukowanych dokumentach zapisanych jako PDF.
Kiedy używać tego narzędzia
OCR przydaje się wtedy, gdy tekst jest widoczny na stronie, ale nie możesz go wyszukiwać, zaznaczać ani kopiować z pliku PDF.
- Zamień zeskanowany dokument papierowy w przeszukiwalny PDF.
- Rozpoznaj tekst ze skanów z telefonu zapisanych jako PDF.
- Odzyskaj tekst z PDF-ów będących wyłącznie obrazem, których nie da się normalnie kopiować.
- Wyciągnij czytelny tekst ze starych raportów, listów, faktur lub zarchiwizowanych dokumentów.
Chcesz wyciągnąć tekst z PDF-a, który już ma tekst możliwy do zaznaczenia? Użyj wyodrębniania tekstu z PDF do zwykłego tekstu. Potrzebujesz obrazów stron zamiast tekstu z OCR? Wypróbuj konwersję stron PDF na obrazy. Chcesz najpierw przetworzyć tylko wybrane strony? Użyj wyodrębniania wybranych stron PDF do nowego pliku.
Instrukcja krok po kroku: uruchom OCR na PDF-ie
Przygotowanie przeszukiwalnego PDF-a zajmuje tylko kilka kroków:
- Dodaj PDF. Przeciągnij plik do pola powyżej albo kliknij, aby wybrać go z urządzenia.
- Wybierz język OCR. Użyj automatycznego wykrywania albo ręcznie wybierz główny język dokumentu.
- Wybierz zakres stron. Uruchom OCR na wszystkich stronach albo kliknij wybrane strony ręcznie.
- Wybierz wynik. Domyślnie zaznaczony jest przeszukiwalny PDF, ale możesz też wyeksportować plik tekstowy.
- Wybierz widoczność podglądu tekstu. Włącz podgląd rozpoznanego tekstu tylko wtedy, gdy chcesz go zobaczyć pod stronami.
- Uruchom OCR. Narzędzie przetwarza strony w przeglądarce i tworzy wynik lokalnie.
Co zawiera wynik
- Przeszukiwalny PDF: wygląd strony pozostaje taki sam, a dodawana jest ukryta warstwa tekstowa, dzięki której można wyszukiwać, zaznaczać i kopiować tekst w zgodnych przeglądarkach PDF.
- Plik tekstowy: zwykły eksport .txt z rozpoznaną treścią do dalszego użycia, poprawiania lub wklejania gdzie indziej.
- Opcjonalny podgląd: możesz wyświetlić podgląd rozpoznanego tekstu przed zapisaniem, jeśli chcesz sprawdzić jakość OCR.
OCR zwykle nie odtwarza idealnie oryginalnego układu dokumentu jako edytowalnego tekstu. Najlepiej sprawdza się do rozpoznawania, wyszukiwania, kopiowania i podstawowego odzyskiwania tekstu.
Prywatność, limity i sposób przetwarzania plików
FileYoga działa według prostej zasady: Twoje pliki zostają u Ciebie. OCR działa lokalnie w przeglądarce, więc Twoje PDF-y nigdy nie są przesyłane na serwery FileYoga.
Przetwarzanie tylko lokalnie
OCR działa w Twojej przeglądarce na Twoim urządzeniu. PDF nie jest przesyłany, a pliki wynikowe są tworzone po Twojej stronie.
Brak ukrytych kopii
Gdy wyczyścisz plik albo zamkniesz kartę, narzędzie przestaje korzystać z Twojego PDF-a i nie zapisuje żadnych kopii na serwerze.
Brak sztucznych limitów
Bez paywalla i bez limitów użycia. Rzeczywiste ograniczenia wynikają z szybkości urządzenia, pamięci przeglądarki, liczby stron i jakości skanu.
Bez zakładania konta
Korzystaj z narzędzia bez rejestracji. Otwórz stronę, uruchom OCR, zapisz wynik i zamknij kartę, gdy skończysz.
Praktyczne wskazówki
- Wybierz język OCR ręcznie, jeśli znasz główny język dokumentu.
- Wyraźne, kontrastowe i proste skany zwykle dają lepsze wyniki OCR niż rozmyte, krzywe lub zacienione strony.
- Uruchamiaj OCR tylko na potrzebnych stronach, jeśli PDF jest duży albo Twoje urządzenie działa wolniej.
- Użyj podglądu rozpoznanego tekstu, gdy dokładność ma znaczenie przed zapisaniem końcowego wyniku.
- Jeśli przeszukiwalny PDF po OCR stanie się większy, skompresuj go później.
- Dokumenty wielojęzyczne mogą wymagać osobnych uruchomień, jeśli różne grupy stron mają inny dominujący język.
Rozwiązywanie problemów
- OCR działa wolno: duże PDF-y, strony w wysokiej rozdzielczości i wiele zeskanowanych stron potrzebują więcej czasu, bo każda strona jest analizowana w przeglądarce.
- Jakość rozpoznawania jest słaba: skan może być rozmyty, niskiej jakości, przekrzywiony, zaszumiony albo zrobiony przy słabym oświetleniu.
- Automatyczne wykrywanie wybrało zły język: uruchom OCR ponownie i ustaw ręcznie główny język dla lepszej dokładności.
- Przeszukiwalny PDF wygląda tak samo: to normalne — widoczna strona zwykle się nie zmienia, tylko dodawany jest ukryty tekst do wyszukiwania.
- Niektóre słowa są błędne albo ich brakuje: ozdobne czcionki, pismo odręczne, tabele, pieczątki, niski kontrast i mieszane języki mogą obniżyć skuteczność OCR.
- Błąd przy PDF-ie: plik może być uszkodzony, zaszyfrowany, zbyt złożony albo zbyt ciężki dla przeglądarki — zapisz go ponownie w komputerowej aplikacji PDF i spróbuj jeszcze raz.
Najczęściej zadawane pytania
Tak. Gdy wybierzesz wynik w postaci przeszukiwalnego PDF-a, narzędzie dodaje ukrytą warstwę rozpoznanego tekstu, dzięki czemu zgodne przeglądarki PDF mogą łatwiej wyszukiwać, zaznaczać i kopiować tekst.
Tak. Wybierz tryb wyjścia tylko z tekstem, jeśli chcesz otrzymać wyłącznie plik .txt zamiast przeszukiwalnego PDF-a.
Nie zawsze. Automatyczne wykrywanie działa orientacyjnie. Dla lepszej dokładności OCR wybierz ręcznie główny język, jeśli go znasz.
Tak. Przełącz zakres stron na wybór ręczny i kliknij tylko te strony, które chcesz przetworzyć.
Zwykle tak. Wynik jako przeszukiwalny PDF zachowuje widoczny obraz oryginalnej strony i dodaje rozpoznany tekst pod spodem, zamiast przebudowywać układ strony.
Czasami, ale dokładność jest zwykle niższa. OCR najlepiej działa na wyraźnym drukowanym tekście. Pismo odręczne, rozmycia, cienie, pieczątki i przekrzywione skany mogą pogarszać wynik.
OCR PDF rozpoznaje tekst ze skanowanych albo obrazowych stron. PDF na tekst lepiej sprawdza się wtedy, gdy PDF już zawiera tekst możliwy do zaznaczenia i chcesz go tylko wyodrębnić.
Nie. OCR działa lokalnie w Twojej przeglądarce na Twoim urządzeniu. Twój plik PDF nie jest przesyłany na serwery FileYoga.