cedricAbonnel/abonnel-www

Fork 0

Files

T

Cédrix 135a5c26f4 publish: Faire de l'OCR sous Fedora

2026-05-17 09:40:55 +02:00

4.7 KiB

Raw Blame History

Faire de l'OCR sous Fedora

Qu'est-ce que l'OCR ?

L'OCR (Optical Character Recognition, ou « reconnaissance optique de caractères » en français) désigne la technologie qui permet de transformer une image contenant du texte — une photo de document, une page scannée, un PDF issu d'un scanner — en texte éditable que l'on peut copier, rechercher ou modifier.

Concrètement, l'OCR analyse les formes présentes dans l'image, identifie les caractères, et reconstruit le texte sous-jacent. La qualité du résultat dépend de trois choses : la lisibilité de l'image (résolution, contraste, absence de flou), la complexité de la mise en page, et la qualité du moteur OCR utilisé.

Quel outil choisir ?

Il n'existe pas un seul « bon » outil OCR : le meilleur choix dépend de ce que tu veux faire. Voici les principaux cas d'usage et l'outil recommandé pour chacun.

Cas 1 — Tu veux rendre un PDF scanné consultable

C'est le besoin le plus fréquent : tu as un PDF qui ressemble à du texte mais qui est en réalité une suite d'images, donc impossible à copier ou à rechercher. OCRmyPDF est conçu exactement pour ça : il ajoute une couche de texte invisible derrière les images, en préservant la mise en page d'origine.

sudo dnf install ocrmypdf tesseract-langpack-fra
ocrmypdf -l fra document_scanné.pdf document_ocr.pdf

Cas 2 — Tu veux extraire du texte d'une image ponctuelle

Pour une capture d'écran, une photo de document, ou quelques images, Tesseract en ligne de commande est l'outil le plus simple et le plus direct. C'est le moteur OCR open source de référence, utilisé en arrière-plan par la plupart des autres outils.

sudo dnf install tesseract tesseract-langpack-fra
tesseract image.png sortie -l fra

Le résultat est écrit dans sortie.txt.

Cas 3 — Tu préfères une interface graphique

Si la ligne de commande te rebute, gImageReader est une interface graphique pour Tesseract, activement maintenue, avec sélection de zones, prévisualisation et export dans plusieurs formats.

sudo dnf install gimagereader

OCRFeeder est une autre option historique sous GNOME, mais le projet est peu maintenu depuis plusieurs années. Il reste fonctionnel pour des cas simples, mais gImageReader est généralement un meilleur choix aujourd'hui.

Cas 4 — Tes documents sont complexes (manuscrits, mises en page riches, langues rares)

Tesseract montre ses limites sur les écritures manuscrites, les documents très bruités, ou certaines langues. Dans ces cas, les outils basés sur l'apprentissage profond donnent de bien meilleurs résultats : PaddleOCR, EasyOCR ou docTR. Ils sont plus lourds à installer (Python + dépendances ML), mais la qualité de reconnaissance est nettement supérieure.

Installer OCRFeeder (si tu y tiens)

Si tu veux malgré tout installer OCRFeeder — par exemple parce que son interface te convient ou pour tester — voici la procédure via Flatpak, le format de paquet universel utilisé pour distribuer cette application.

Étape 1 — Installer Flatpak

Sur Fedora, Flatpak est généralement déjà présent. Pour vérifier ou l'installer :

sudo dnf install flatpak

Étape 2 — Ajouter le dépôt Flathub

Flathub est le dépôt principal d'applications Flatpak. Sans lui, tu n'as accès à aucune application.

flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo

Étape 3 — Installer OCRFeeder

flatpak install flathub org.gnome.OCRFeeder

À noter : on n'utilise pas sudo ici. Flatpak est conçu pour installer les applications au niveau de l'utilisateur, ce qui est plus sûr et n'exige aucun privilège administrateur. N'utilise sudo flatpak install que si tu veux explicitement rendre l'application disponible pour tous les utilisateurs du système.

Étape 4 — Lancer l'application

Depuis le menu d'applications, ou en ligne de commande :

flatpak run org.gnome.OCRFeeder

Pour aller plus loin

En résumé

Besoin	Outil recommandé
Rendre un PDF scanné consultable	OCRmyPDF
Extraire du texte d'une image	Tesseract
Interface graphique simple	gImageReader
Documents complexes ou manuscrits	PaddleOCR / docTR
Solution GNOME historique	OCRFeeder (peu maintenu)

Le meilleur réflexe est de commencer par identifier ton besoin réel avant de choisir l'outil — pas l'inverse.

4.7 KiB Raw Blame History