Wie OCR funktioniert
PDF OCR nutzt optische Zeichenerkennung, um Text in gescannten oder bildbasierten PDF-Seiten zu erkennen. Das Tool kann eine durchsuchbare PDF erstellen, indem es eine unsichtbare Textebene über die ursprünglichen Seiten legt. Zusätzlich kann der erkannte Inhalt als einfacher Text zum Kopieren oder Bearbeiten exportiert werden.
Einfach gesagt: OCR liest Text aus einem Bild. Wenn Ihre PDF aus Scans oder Bildern besteht, sieht der Text zwar lesbar aus, kann aber nicht wirklich ausgewählt oder durchsucht werden. OCR analysiert jede Seite, erkennt Buchstaben und Wörter visuell und wandelt sie in echten Text um, den Ihr Gerät versteht.
Das unterscheidet sich von einem typischen PDF-zu-Text-Tool. Wenn eine PDF bereits auswählbaren Text enthält, extrahiert dieses Tool ihn sofort. OCR wird nur benötigt, wenn die PDF keine echte Textebene enthält und alles nur ein Bild ist — zum Beispiel bei Scans, Fotos oder gedruckten Dokumenten, die als PDF gespeichert wurden.
Wann Sie dieses Tool verwenden sollten
OCR ist hilfreich, wenn Text auf der Seite sichtbar ist, Sie ihn aus der PDF aber nicht suchen, markieren oder kopieren können.
- Verwandeln Sie ein gescanntes Papierdokument in eine durchsuchbare PDF.
- Erkennen Sie Text aus Smartphone-Scans, die als PDF gespeichert wurden.
- Gewinnen Sie Text aus reinen Bild-PDFs zurück, die sich normalerweise nicht kopieren lassen.
- Extrahieren Sie lesbaren Text aus alten Berichten, Briefen, Rechnungen oder archivierten Dokumenten.
Müssen Sie Text aus einer PDF ziehen, die bereits auswählbaren Text enthält? Nutzen Sie Text aus einer PDF als einfachen Text extrahieren. Benötigen Sie Seitenbilder statt OCR-Text? Versuchen Sie PDF-Seiten in Bilder umzuwandeln. Möchten Sie zuerst nur bestimmte Seiten verarbeiten? Nutzen Sie ausgewählte PDF-Seiten in eine neue PDF extrahieren.
Schritt für Schritt: OCR auf eine PDF anwenden
Eine PDF durchsuchbar zu machen, dauert nur wenige Schritte:
- PDF hinzufügen. Ziehen Sie die Datei in das Feld oben oder klicken Sie, um sie von Ihrem Gerät auszuwählen.
- OCR-Sprache auswählen. Nutzen Sie die automatische Erkennung oder wählen Sie die Hauptsprache des Dokuments manuell.
- Seitenumfang festlegen. Führen Sie OCR auf allen Seiten aus oder wählen Sie einzelne Seiten manuell aus.
- Ausgabe auswählen. Die durchsuchbare PDF ist standardmäßig ausgewählt. Bei Bedarf können Sie zusätzlich eine Textdatei exportieren.
- Textvorschau wählen. Aktivieren Sie die Vorschau des erkannten Textes nur, wenn Sie ihn unter den Seiten prüfen möchten.
- OCR starten. Das Tool verarbeitet die Seiten in Ihrem Browser und erstellt das Ergebnis lokal.
Was die Ausgabe enthält
- Durchsuchbare PDF: Das Seitenbild bleibt gleich, während eine unsichtbare erkannte Textebene hinzugefügt wird, damit kompatible PDF-Viewer Suche, Markieren und Kopieren unterstützen.
- Textdatei: Ein einfacher .txt-Export des erkannten Inhalts zur Weiterverwendung, Bereinigung oder zum Einfügen an anderer Stelle.
- Optionale Vorschau: Sie können die Vorschau des erkannten Textes vor dem Speichern anzeigen, wenn Sie die OCR-Qualität prüfen möchten.
OCR erstellt das ursprüngliche Dokumentlayout normalerweise nicht perfekt als bearbeitbaren Text nach. Es eignet sich am besten zum Erkennen, Suchen, Kopieren und einfachen Wiederherstellen von Text.
Datenschutz, Grenzen und wie dieses Tool mit Ihren Dateien umgeht
FileYoga folgt einer einfachen Regel: Ihre Dateien bleiben bei Ihnen. OCR läuft lokal in Ihrem Browser, sodass Ihre PDFs niemals auf FileYoga-Server hochgeladen werden.
Nur lokale Verarbeitung
Die OCR erfolgt in Ihrem Browser auf Ihrem Gerät. Ihre PDF wird nicht hochgeladen, und die Ausgabedateien werden auf Ihrer Seite erstellt.
Keine versteckten Kopien
Wenn Sie die Datei entfernen oder den Tab schließen, verwendet das Tool Ihre PDF nicht weiter und speichert keine Kopien auf einem Server.
Keine künstlichen Limits
Keine Paywalls und keine Kontingente. Die tatsächlichen Grenzen hängen von der Geschwindigkeit Ihres Geräts, dem Browserspeicher, der Seitenanzahl und der Scanqualität ab.
Kein Konto erforderlich
Nutzen Sie das Tool ohne Registrierung. Öffnen Sie die Seite, führen Sie OCR aus, speichern Sie das Ergebnis und verlassen Sie die Seite, wenn Sie fertig sind.
Tipps für beste Ergebnisse
- Wählen Sie die OCR-Sprache manuell, wenn Sie die Hauptsprache des Dokuments bereits kennen.
- Kontrastreiche, gerade und klare Scans liefern meist bessere OCR-Ergebnisse als unscharfe, schiefe oder schattige Seiten.
- Führen Sie OCR nur auf den benötigten Seiten aus, wenn die PDF groß ist oder Ihr Gerät langsamer arbeitet.
- Nutzen Sie die Vorschau des erkannten Textes, wenn Genauigkeit vor dem Speichern wichtig ist.
- Wenn die durchsuchbare PDF nach OCR größer wird, können Sie sie anschließend komprimieren.
- Mehrsprachige Dokumente können separate Durchläufe benötigen, wenn auf verschiedenen Seitengruppen jeweils eine andere Sprache dominiert.
Fehlerbehebung
- OCR ist langsam: Große PDFs, hochauflösende Seiten und viele gescannte Seiten dauern länger, weil jede Seite im Browser analysiert wird.
- Die Erkennungsqualität ist schlecht: Der Scan ist möglicherweise unscharf, niedrig aufgelöst, schief, verrauscht oder bei schlechter Beleuchtung aufgenommen.
- Die automatische Erkennung hat die falsche Sprache gewählt: Führen Sie OCR erneut aus und wählen Sie die Hauptsprache manuell, um die Genauigkeit zu verbessern.
- Die durchsuchbare PDF sieht unverändert aus: Das ist normal — die sichtbare Seite bleibt meist gleich, während im Hintergrund durchsuchbarer Text hinzugefügt wird.
- Einige Wörter sind falsch oder fehlen: Dekorative Schriftarten, Handschrift, Tabellen, Stempel, geringer Kontrast und gemischte Sprachen können die OCR-Genauigkeit verringern.
- Fehler bei der PDF: Die Datei ist möglicherweise beschädigt, verschlüsselt, zu komplex oder zu groß für den Browser — speichern Sie sie in einer Desktop-PDF-App erneut und versuchen Sie es noch einmal.
Häufig gestellte Fragen
Ja. Wenn Sie eine durchsuchbare PDF als Ausgabe wählen, fügt das Tool eine unsichtbare erkannte Textebene hinzu, damit unterstützte PDF-Viewer Text leichter suchen, markieren und kopieren können.
Ja. Wählen Sie die Ausgabe „Nur Textdatei“, wenn Sie nur eine .txt-Datei statt einer durchsuchbaren PDF möchten.
Nicht immer. Die automatische Erkennung ist eine bestmögliche Schätzung. Für bessere OCR-Genauigkeit wählen Sie die Hauptsprache manuell, wenn Sie sie kennen.
Ja. Stellen Sie den Seitenumfang auf manuelle Auswahl um und klicken Sie nur die Seiten an, die verarbeitet werden sollen.
In der Regel ja. Die Ausgabe als durchsuchbare PDF lässt das ursprüngliche Seitenbild sichtbar und fügt den erkannten Text im Hintergrund hinzu, statt die Seite neu zu gestalten.
Manchmal, aber die Genauigkeit ist meist niedriger. OCR funktioniert am besten mit klar gedrucktem Text. Handschrift, Unschärfe, Schatten, Stempel und schiefe Scans können die Erkennungsqualität verringern.
PDF OCR erkennt Text aus gescannten oder bildbasierten Seiten. PDF zu Text ist besser, wenn die PDF bereits auswählbaren Text enthält und Sie ihn nur extrahieren möchten.
Nein. Die OCR läuft lokal in Ihrem Browser auf Ihrem Gerät. Ihre PDF-Datei wird nicht auf FileYoga-Server hochgeladen.