Comment fonctionne l’OCR
L’outil OCR PDF utilise la reconnaissance optique de caractères pour détecter le texte présent dans des pages PDF scannées ou composées d’images. Il peut créer un PDF interrogeable en superposant une couche de texte invisible aux pages d’origine. Il peut également exporter le contenu reconnu sous forme de texte brut afin de le copier, de le corriger ou de le réutiliser.
En termes simples, l’OCR lit le texte présent dans une image. Lorsqu’un PDF est constitué de numérisations ou de photos, le texte paraît lisible, mais il ne peut pas être sélectionné ni recherché. L’OCR analyse chaque page, reconnaît visuellement les lettres et les mots, puis les transforme en texte exploitable par votre appareil.
Cette opération est différente de celle d’un outil classique de conversion de PDF en texte. Lorsqu’un PDF contient déjà du texte sélectionnable, cet outil peut l’extraire immédiatement. L’OCR est nécessaire uniquement lorsqu’il n’existe aucune véritable couche de texte et que les pages ne sont que des images, par exemple des numérisations, des photos ou des documents imprimés enregistrés au format PDF.
Quand utiliser cet outil
L’OCR est utile lorsque le texte est visible sur la page, mais qu’il est impossible de le rechercher, de le surligner ou de le copier depuis le PDF.
- Transformer un document papier scanné en PDF interrogeable.
- Reconnaître le texte de numérisations réalisées avec un téléphone et enregistrées au format PDF.
- Récupérer le texte d’un PDF composé uniquement d’images.
- Extraire du texte lisible à partir d’anciens rapports, courriers, factures ou documents archivés.
Le PDF contient déjà du texte sélectionnable ? Utilisez l’outil permettant d’extraire le texte d’un PDF vers un fichier texte. Vous avez besoin d’images de chaque page plutôt que du texte reconnu ? Essayez de convertir les pages du PDF en images. Vous souhaitez d’abord isoler certaines pages ? Utilisez l’outil permettant d’extraire des pages sélectionnées dans un nouveau PDF.
Étapes pour effectuer l’OCR d’un PDF
Quelques étapes suffisent pour rendre votre PDF interrogeable :
- Ajoutez votre PDF. Faites glisser le fichier dans la zone ci-dessus ou cliquez pour le sélectionner sur votre appareil.
- Choisissez la langue de l’OCR. Utilisez la détection automatique ou sélectionnez manuellement la langue principale du document.
- Choisissez les pages à traiter. Lancez l’OCR sur toutes les pages ou sélectionnez uniquement certaines pages.
- Choisissez le format de sortie. Le PDF interrogeable est sélectionné par défaut. Vous pouvez également exporter un fichier texte.
- Choisissez si l’aperçu doit être affiché. Activez l’aperçu uniquement lorsque vous souhaitez consulter le texte reconnu sous les pages.
- Lancez l’OCR. L’outil traite les pages dans votre navigateur et crée les fichiers localement sur votre appareil.
Contenu des fichiers de sortie
- PDF interrogeable : l’apparence des pages est conservée, tandis qu’une couche de texte reconnu invisible est ajoutée afin de permettre la recherche, le surlignage et la copie dans les lecteurs PDF compatibles.
- Fichier texte : un fichier .txt contenant le texte reconnu, utile pour le réutiliser, le corriger ou le coller dans une autre application.
- Aperçu facultatif : vous pouvez afficher le texte reconnu avant l’enregistrement afin de vérifier la qualité du résultat.
L’OCR ne reproduit généralement pas parfaitement la mise en page d’origine sous forme de texte modifiable. Il est surtout destiné à la reconnaissance, à la recherche, à la copie et à la récupération simple du contenu textuel.
Confidentialité, limites et traitement de vos fichiers
FileYoga repose sur un principe simple : vos fichiers restent sous votre contrôle. L’OCR s’effectue localement dans votre navigateur. Vos PDF ne sont donc jamais envoyés aux serveurs de FileYoga.
Traitement uniquement local
La reconnaissance OCR s’effectue dans votre navigateur, sur votre appareil. Votre PDF n’est pas envoyé et les fichiers de sortie sont créés localement.
Aucune copie cachée
Lorsque vous retirez le fichier ou fermez l’onglet, l’outil cesse d’utiliser votre PDF et n’en conserve aucune copie sur un serveur.
Aucune limite artificielle
Aucun abonnement payant ni quota. Les limites réelles dépendent de la puissance de votre appareil, de la mémoire du navigateur, du nombre de pages et de la qualité des numérisations.
Aucun compte requis
Utilisez l’outil sans inscription. Ouvrez la page, lancez l’OCR, enregistrez le résultat, puis fermez-la lorsque vous avez terminé.
Conseils pour obtenir de meilleurs résultats
- Sélectionnez manuellement la langue lorsque vous connaissez la langue principale du document.
- Les numérisations nettes, droites et fortement contrastées produisent généralement de meilleurs résultats que les pages floues, inclinées ou couvertes d’ombres.
- Pour les PDF volumineux ou sur un appareil moins puissant, traitez uniquement les pages nécessaires.
- Affichez l’aperçu du texte reconnu lorsque la précision est importante avant l’enregistrement du résultat final.
- Si le PDF interrogeable devient plus volumineux après l’OCR, compressez-le ensuite.
- Pour les documents multilingues, plusieurs traitements séparés peuvent être nécessaires lorsque différentes langues dominent certains groupes de pages.
Résolution des problèmes
- L’OCR est lent : les PDF volumineux, les pages en haute résolution et les documents comportant de nombreuses pages scannées prennent davantage de temps, car chaque page est analysée dans votre navigateur.
- La qualité de reconnaissance est faible : la numérisation peut être floue, trop peu définie, inclinée, bruitée ou réalisée dans de mauvaises conditions d’éclairage.
- La détection automatique a choisi la mauvaise langue : relancez l’OCR en sélectionnant manuellement la langue principale.
- Le PDF interrogeable semble inchangé : c’est normal. L’apparence visible de la page reste généralement identique, tandis qu’une couche de texte invisible est ajoutée.
- Certains mots sont incorrects ou absents : les polices décoratives, l’écriture manuscrite, les tableaux, les tampons, le faible contraste et les documents multilingues peuvent réduire la précision.
- Une erreur survient avec le PDF : le fichier peut être endommagé, chiffré, trop complexe ou trop volumineux pour la mémoire du navigateur. Enregistrez-le de nouveau dans une application PDF de bureau, puis réessayez.
Questions fréquentes
Oui. Lorsque vous choisissez le format PDF interrogeable, l’outil ajoute une couche de texte reconnu invisible afin que les lecteurs PDF compatibles puissent rechercher, surligner et copier le texte plus facilement.
Oui. Choisissez le mode « Fichier texte uniquement » pour obtenir seulement un fichier .txt, sans générer de PDF interrogeable.
Non. La détection automatique fournit une estimation. Pour améliorer la précision de l’OCR, sélectionnez manuellement la langue principale lorsque vous la connaissez.
Oui. Choisissez la sélection manuelle des pages, puis cliquez uniquement sur les pages que vous souhaitez traiter.
Généralement, oui. Le PDF interrogeable conserve l’image d’origine de la page et ajoute le texte reconnu en arrière-plan, sans recréer la mise en page.
Parfois, mais la précision est généralement plus faible. L’OCR fonctionne surtout avec du texte imprimé net. L’écriture manuscrite, le flou, les ombres, les tampons et les pages inclinées peuvent réduire la qualité de reconnaissance.
OCR PDF reconnaît le texte présent dans des pages scannées ou composées d’images. PDF en texte convient mieux lorsqu’un PDF contient déjà du texte sélectionnable et que vous souhaitez simplement l’extraire.
Non. La reconnaissance OCR s’effectue localement dans votre navigateur, sur votre appareil. Votre fichier PDF n’est jamais envoyé aux serveurs de FileYoga.