draft: OCRFeeder

2026-05-17 09:40:31 +02:00
parent 01fe65a257
commit 0e7feb5f10
3 changed files with 91 additions and 16 deletions
@@ -1,4 +1,4 @@
 {
-    "title": "OCRFeeder",
-    "_updated_at": "2026-05-17 07:38:47"
+    "title": "Faire de l'OCR sous Fedora",
+    "_updated_at": "2026-05-17 07:40:30"
 }
@@ -1,26 +1,100 @@
-# OCRFeeder
+# Faire de l'OCR sous Fedora

-**OCRFeeder** est une application open source qui permet de reconnaître et d'extraire du texte à partir d'images ou de documents numérisés. Le terme OCR signifie "Optical Character Recognition" (Reconnaissance Optique de Caractères en français), et **OCRFeeder** est conçu pour automatiser ce processus en convertissant des images contenant du texte en texte éditable.
+## Qu'est-ce que l'OCR ?

-## Installation
-Pour installer **OCRFeeder** sous Fedora, vous devez utiliser le gestionnaire de paquets **Flatpak**. Voici les étapes pour installer **OCRFeeder** :
+L'**OCR** (*Optical Character Recognition*, ou « reconnaissance optique de caractères » en français) désigne la technologie qui permet de transformer une image contenant du texte — une photo de document, une page scannée, un PDF issu d'un scanner — en **texte éditable** que l'on peut copier, rechercher ou modifier.

-1. Assurez-vous que Flatpak est installé sur votre système. Si ce n'est pas le cas, vous pouvez l'installer en utilisant DNF (ou YUM) avec la commande suivante :
+Concrètement, l'OCR analyse les formes présentes dans l'image, identifie les caractères, et reconstruit le texte sous-jacent. La qualité du résultat dépend de trois choses : la **lisibilité de l'image** (résolution, contraste, absence de flou), la **complexité de la mise en page**, et la **qualité du moteur OCR** utilisé.
+
+## Quel outil choisir ?
+
+Il n'existe pas un seul « bon » outil OCR : le meilleur choix dépend de ce que tu veux faire. Voici les principaux cas d'usage et l'outil recommandé pour chacun.
+
+### Cas 1 — Tu veux rendre un PDF scanné consultable
+
+C'est le besoin le plus fréquent : tu as un PDF qui ressemble à du texte mais qui est en réalité une suite d'images, donc impossible à copier ou à rechercher. **OCRmyPDF** est conçu exactement pour ça : il ajoute une couche de texte invisible derrière les images, en préservant la mise en page d'origine.
+
+```bash
+sudo dnf install ocrmypdf tesseract-langpack-fra
+ocrmypdf -l fra document_scanné.pdf document_ocr.pdf
 ```
+
+### Cas 2 — Tu veux extraire du texte d'une image ponctuelle
+
+Pour une capture d'écran, une photo de document, ou quelques images, **Tesseract** en ligne de commande est l'outil le plus simple et le plus direct. C'est le moteur OCR open source de référence, utilisé en arrière-plan par la plupart des autres outils.
+
+```bash
+sudo dnf install tesseract tesseract-langpack-fra
+tesseract image.png sortie -l fra
+```
+
+Le résultat est écrit dans `sortie.txt`.
+
+### Cas 3 — Tu préfères une interface graphique
+
+Si la ligne de commande te rebute, **gImageReader** est une interface graphique pour Tesseract, activement maintenue, avec sélection de zones, prévisualisation et export dans plusieurs formats.
+
+```bash
+sudo dnf install gimagereader
+```
+
+**OCRFeeder** est une autre option historique sous GNOME, mais le projet est peu maintenu depuis plusieurs années. Il reste fonctionnel pour des cas simples, mais gImageReader est généralement un meilleur choix aujourd'hui.
+
+### Cas 4 — Tes documents sont complexes (manuscrits, mises en page riches, langues rares)
+
+Tesseract montre ses limites sur les écritures manuscrites, les documents très bruités, ou certaines langues. Dans ces cas, les outils basés sur l'apprentissage profond donnent de bien meilleurs résultats : **PaddleOCR**, **EasyOCR** ou **docTR**. Ils sont plus lourds à installer (Python + dépendances ML), mais la qualité de reconnaissance est nettement supérieure.
+
+## Installer OCRFeeder (si tu y tiens)
+
+Si tu veux malgré tout installer OCRFeeder — par exemple parce que son interface te convient ou pour tester — voici la procédure via **Flatpak**, le format de paquet universel utilisé pour distribuer cette application.
+
+### Étape 1 — Installer Flatpak
+
+Sur Fedora, Flatpak est généralement déjà présent. Pour vérifier ou l'installer :
+
+```bash
 sudo dnf install flatpak
 ```

-2. Après avoir installé **Flatpak**, ajoutez le référentiel **Flathub**, qui est l'un des dépôts **Flatpak** les plus populaires. Vous pouvez l'ajouter avec la commande suivante :
-```
-flatpak remote-add --if-not-exists flathub https:*flathub.org/repo/flathub.flatpakrepo
+### Étape 2 — Ajouter le dépôt Flathub
+
+Flathub est le dépôt principal d'applications Flatpak. Sans lui, tu n'as accès à aucune application.
+
+```bash
+flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo
 ```

-3. Une fois le référentiel Flathub ajouté, vous pouvez rechercher OCRFeeder et l'installer avec la commande suivante :
-```
-sudo flatpak install flathub org.gnome.OCRFeeder
+### Étape 3 — Installer OCRFeeder
+
+```bash
+flatpak install flathub org.gnome.OCRFeeder
 ```

-![](20230924-090605.png)
+> **À noter :** on n'utilise **pas** `sudo` ici. Flatpak est conçu pour installer les applications au niveau de l'utilisateur, ce qui est plus sûr et n'exige aucun privilège administrateur. N'utilise `sudo flatpak install` que si tu veux explicitement rendre l'application disponible pour tous les utilisateurs du système.

-## Quelques liens associés
- [OCRFeeder chez flathub.org](https:*flathub.org/apps/org.gnome.OCRFeeder)
+### Étape 4 — Lancer l'application
+
+Depuis le menu d'applications, ou en ligne de commande :
+
+```bash
+flatpak run org.gnome.OCRFeeder
+```
+
+## Pour aller plus loin
+
+- [OCRFeeder sur Flathub](https://flathub.org/apps/org.gnome.OCRFeeder)
+- [Documentation Tesseract](https://tesseract-ocr.github.io/)
+- [OCRmyPDF — documentation](https://ocrmypdf.readthedocs.io/)
+- [gImageReader sur GitHub](https://github.com/manisandro/gImageReader)
+
+## En résumé
+
+| Besoin | Outil recommandé |
+|---|---|
+| Rendre un PDF scanné consultable | OCRmyPDF |
+| Extraire du texte d'une image | Tesseract |
+| Interface graphique simple | gImageReader |
+| Documents complexes ou manuscrits | PaddleOCR / docTR |
+| Solution GNOME historique | OCRFeeder (peu maintenu) |
+
+Le meilleur réflexe est de **commencer par identifier ton besoin réel** avant de choisir l'outil — pas l'inverse.
@@ -1307,3 +1307,4 @@
 {"ts":"2026-05-17 07:31:55","url":"/journal_geek/2023/20230111-en-tetes-http-csp-securiser-le-contenu-d-un-site-web","ref":"","ua":"Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"}
 {"ts":"2026-05-17 07:36:00","url":"/informatique/technologie/virtualisation","ref":"","ua":"Mozilla/5.0 (Macintosh; Intel Mac OS X 11_3_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.6422.176 Safari/537.36"}
 {"ts":"2026-05-17 07:38:14","url":"/informatique/tpm2","ref":"","ua":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/147.0.0.0 Safari/537.36"}
+{"ts":"2026-05-17 07:39:47","url":"/informatique/linux/applications/soundux","ref":"","ua":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/147.0.0.0 Safari/537.36"}