add: Faire de l'OCR sous Debian / Linux Mint

2026-05-17 09:43:29 +02:00
parent 135a5c26f4
commit bb5cb66838
2 changed files with 159 additions and 0 deletions
@@ -0,0 +1,139 @@
+# Faire de l'OCR sous Debian / Linux Mint
+
+## Qu'est-ce que l'OCR ?
+
+L'**OCR** (*Optical Character Recognition*, ou « reconnaissance optique de caractères » en français) désigne la technologie qui permet de transformer une image contenant du texte — une photo de document, une page scannée, un PDF issu d'un scanner — en **texte éditable** que l'on peut copier, rechercher ou modifier.
+
+Concrètement, l'OCR analyse les formes présentes dans l'image, identifie les caractères, et reconstruit le texte sous-jacent. La qualité du résultat dépend de trois choses : la **lisibilité de l'image** (résolution, contraste, absence de flou), la **complexité de la mise en page**, et la **qualité du moteur OCR** utilisé.
+
+## Quel outil choisir ?
+
+Il n'existe pas un seul « bon » outil OCR : le meilleur choix dépend de ce que tu veux faire. Voici les principaux cas d'usage et l'outil recommandé pour chacun.
+
+### Cas 1 — Tu veux rendre un PDF scanné consultable
+
+C'est le besoin le plus fréquent : tu as un PDF qui ressemble à du texte mais qui est en réalité une suite d'images, donc impossible à copier ou à rechercher. **OCRmyPDF** est conçu exactement pour ça : il ajoute une couche de texte invisible derrière les images, en préservant la mise en page d'origine.
+
+```bash
+sudo apt update
+sudo apt install ocrmypdf tesseract-ocr-fra
+ocrmypdf -l fra document_scanné.pdf document_ocr.pdf
+```
+
+### Cas 2 — Tu veux extraire du texte d'une image ponctuelle
+
+Pour une capture d'écran, une photo de document, ou quelques images, **Tesseract** en ligne de commande est l'outil le plus simple et le plus direct. C'est le moteur OCR open source de référence, utilisé en arrière-plan par la plupart des autres outils.
+
+```bash
+sudo apt install tesseract-ocr tesseract-ocr-fra
+tesseract image.png sortie -l fra
+```
+
+Le résultat est écrit dans `sortie.txt`.
+
+> **Astuce :** pour reconnaître plusieurs langues dans le même document, on les combine avec `+`, par exemple `-l fra+eng`.
+
+### Cas 3 — Tu préfères une interface graphique
+
+Si la ligne de commande te rebute, **gImageReader** est une interface graphique pour Tesseract, activement maintenue, avec sélection de zones, prévisualisation et export dans plusieurs formats.
+
+```bash
+sudo apt install gimagereader
+```
+
+**OCRFeeder** est une autre option historique, mais le projet est peu maintenu depuis plusieurs années. Il reste fonctionnel pour des cas simples, mais gImageReader est généralement un meilleur choix aujourd'hui.
+
+### Cas 4 — Tes documents sont complexes (manuscrits, mises en page riches, langues rares)
+
+Tesseract montre ses limites sur les écritures manuscrites, les documents très bruités, ou certaines langues. Dans ces cas, les outils basés sur l'apprentissage profond donnent de bien meilleurs résultats : **PaddleOCR**, **EasyOCR** ou **docTR**. Ils sont plus lourds à installer (Python + dépendances ML), mais la qualité de reconnaissance est nettement supérieure.
+
+L'installation typique se fait via `pip` dans un environnement virtuel :
+
+```bash
+sudo apt install python3-venv python3-pip
+python3 -m venv ~/ocr-env
+source ~/ocr-env/bin/activate
+pip install easyocr     # ou paddleocr, ou python-doctr
+```
+
+## Installer OCRFeeder (si tu y tiens)
+
+Si tu veux malgré tout installer OCRFeeder — par exemple parce que son interface te convient ou pour tester — il existe **deux méthodes** sous Debian / Mint : via les dépôts officiels (plus simple) ou via Flatpak (version plus récente et plus à jour).
+
+### Méthode A — Via les dépôts APT (la plus simple)
+
+OCRFeeder est packagé dans Debian et Linux Mint. Une seule commande suffit :
+
+```bash
+sudo apt update
+sudo apt install ocrfeeder
+```
+
+C'est la méthode recommandée si tu veux juste essayer rapidement. L'inconvénient : la version disponible dans les dépôts peut être ancienne, surtout sur Debian stable.
+
+### Méthode B — Via Flatpak (version la plus récente)
+
+Flatpak permet d'installer une version plus à jour, indépendante de la distribution.
+
+**Étape 1 — Installer Flatpak**
+
+Sur Debian comme sur Mint, Flatpak n'est pas toujours présent par défaut :
+
+```bash
+sudo apt install flatpak
+```
+
+Sous Linux Mint, l'intégration avec le gestionnaire de logiciels est généralement déjà active. Sous Debian, tu peux aussi installer le greffon GNOME Software pour gérer les Flatpaks graphiquement :
+
+```bash
+sudo apt install gnome-software-plugin-flatpak
+```
+
+**Étape 2 — Ajouter le dépôt Flathub**
+
+Flathub est le dépôt principal d'applications Flatpak. Sans lui, tu n'as accès à aucune application.
+
+```bash
+flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo
+```
+
+**Étape 3 — Installer OCRFeeder**
+
+```bash
+flatpak install flathub org.gnome.OCRFeeder
+```
+
+> **À noter :** on n'utilise **pas** `sudo` ici. Flatpak est conçu pour installer les applications au niveau de l'utilisateur, ce qui est plus sûr et n'exige aucun privilège administrateur. N'utilise `sudo flatpak install` que si tu veux explicitement rendre l'application disponible pour tous les utilisateurs du système.
+
+**Étape 4 — Redémarrer la session (la première fois)**
+
+Après la toute première installation Flatpak, il faut souvent redémarrer la session pour que les nouvelles applications apparaissent dans le menu.
+
+**Étape 5 — Lancer l'application**
+
+Depuis le menu d'applications, ou en ligne de commande :
+
+```bash
+flatpak run org.gnome.OCRFeeder
+```
+
+## Pour aller plus loin
+
+- [OCRFeeder sur Flathub](https://flathub.org/apps/org.gnome.OCRFeeder)
+- [Documentation Tesseract](https://tesseract-ocr.github.io/)
+- [OCRmyPDF — documentation](https://ocrmypdf.readthedocs.io/)
+- [gImageReader sur GitHub](https://github.com/manisandro/gImageReader)
+- [Documentation Flatpak pour Debian](https://flatpak.org/setup/Debian)
+- [Documentation Flatpak pour Linux Mint](https://flatpak.org/setup/Linux%20Mint)
+
+## En résumé
+
+| Besoin | Outil recommandé | Commande d'installation |
+|---|---|---|
+| Rendre un PDF scanné consultable | OCRmyPDF | `sudo apt install ocrmypdf` |
+| Extraire du texte d'une image | Tesseract | `sudo apt install tesseract-ocr` |
+| Interface graphique simple | gImageReader | `sudo apt install gimagereader` |
+| Documents complexes / manuscrits | PaddleOCR, EasyOCR, docTR | via `pip` |
+| Solution historique | OCRFeeder | `sudo apt install ocrfeeder` |
+
+Le meilleur réflexe est de **commencer par identifier ton besoin réel** avant de choisir l'outil — pas l'inverse.
@@ -0,0 +1,20 @@
+{
+    "uuid": "5b47fa18-aa09-46be-9e75-d34929a8edcf",
+    "slug": "faire-de-l-ocr-sous-debian-linux-mint",
+    "title": "Faire de l'OCR sous Debian / Linux Mint",
+    "author": "cedric@abonnel.fr",
+    "published": false,
+    "featured": false,
+    "published_at": "2026-05-17 07:43:29",
+    "created_at": "2026-05-17 07:43:29",
+    "updated_at": "2026-05-17 07:43:29",
+    "revisions": [],
+    "cover": "",
+    "files_meta": [],
+    "external_links": [],
+    "seo_title": "",
+    "seo_description": "",
+    "og_image": "",
+    "category": "",
+    "tags": []
+}