From a0e252a8aaa1350fd98b4ea79ec6bab253c87bee Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?C=C3=A9drix?= Date: Sat, 16 May 2026 19:13:54 +0200 Subject: [PATCH] publish: L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 --- .../draft_overlay.json | 11 ------ .../draft_overlay.md | 36 ------------------- 12ed0b43-7dd6-40f2-a44a-e560e184e344/index.md | 35 ++++++++++++++---- .../meta.json | 17 ++++++--- .../revisions/0001.md | 13 +++++++ 5 files changed, 55 insertions(+), 57 deletions(-) delete mode 100644 12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.json delete mode 100644 12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.md create mode 100644 12ed0b43-7dd6-40f2-a44a-e560e184e344/revisions/0001.md diff --git a/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.json b/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.json deleted file mode 100644 index dca364f..0000000 --- a/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.json +++ /dev/null @@ -1,11 +0,0 @@ -{ - "title": "L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15", - "_updated_at": "2026-05-16 17:13:52", - "slug": "20230206-l-utf-8-ne-prend-pas-deux-fois-plus-de-place-que-l-encodage-iso-8859-15", - "published": true, - "published_at": "2023-02-06 20:43", - "category": "Journal geek", - "tags": [], - "seo_title": "", - "seo_description": "" -} diff --git a/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.md b/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.md deleted file mode 100644 index ea22c03..0000000 --- a/12ed0b43-7dd6-40f2-a44a-e560e184e344/draft_overlay.md +++ /dev/null @@ -1,36 +0,0 @@ -# L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 - -Une idée reçue circule : passer d'ISO-8859-15 à UTF-8 doublerait la taille des fichiers texte. C'est faux. Voyons pourquoi. - -## ISO-8859-15 : un octet par caractère, mais 256 caractères seulement - -L'ISO-8859-15 utilise exactement **1 octet (8 bits) par caractère**. Cela lui permet de représenter 256 caractères, ce qui suffit pour couvrir les langues d'Europe occidentale (français, anglais, allemand, espagnol, etc.). - -Cette compacité a un prix : l'ISO-8859-15 est incapable de représenter les caractères d'autres alphabets (cyrillique, arabe, chinois, emoji…). Pour toute application multilingue, il est inadapté. - -## UTF-8 : un codage à longueur variable - -L'UTF-8 utilise **de 1 à 4 octets par caractère**, ce qui lui permet de représenter plus d'un million de caractères Unicode. Sa particularité tient à son codage à longueur variable : - -- **1 octet** pour les caractères ASCII (a-z, A-Z, 0-9, ponctuation de base) ; -- **2 octets** pour les caractères latins accentués (é, à, ç, ü…) et la plupart des alphabets européens ; -- **3 octets** pour la majorité des autres scripts (chinois, japonais, arabe…) ; -- **4 octets** pour les caractères rares et les emoji. - -L'UTF-8 est par ailleurs **rétro-compatible avec l'ASCII** : un fichier purement ASCII a exactement la même taille en UTF-8 qu'en ISO-8859-15. - -## Et concrètement, pour un texte français ? - -Pour un texte en français, la grande majorité des caractères sont en ASCII (lettres non accentuées, espaces, ponctuation) et n'occupent qu'**un seul octet en UTF-8**, comme en ISO-8859-15. Seuls les caractères accentués passent à 2 octets en UTF-8. - -Comme les accents représentent une faible proportion du texte, le surcoût réel est généralement **de l'ordre de quelques pourcents**, et non d'un facteur deux. - -## En résumé - -Non, l'UTF-8 ne prend pas deux fois plus de place que l'ISO-8859-15. Selon le contenu : - -- pour du texte **ASCII pur** : taille identique ; -- pour du **français courant** : surcoût marginal (quelques %) ; -- pour des langues à scripts non latins : surcoût plus marqué, mais c'est le prix de l'universalité. - -Au regard de sa capacité à représenter l'ensemble des écritures du monde, l'UTF-8 reste un excellent compromis entre compacité et flexibilité — et le standard de fait du web moderne. \ No newline at end of file diff --git a/12ed0b43-7dd6-40f2-a44a-e560e184e344/index.md b/12ed0b43-7dd6-40f2-a44a-e560e184e344/index.md index 71ba09b..ea22c03 100644 --- a/12ed0b43-7dd6-40f2-a44a-e560e184e344/index.md +++ b/12ed0b43-7dd6-40f2-a44a-e560e184e344/index.md @@ -1,13 +1,36 @@ # L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 -![](dummy.png) +Une idée reçue circule : passer d'ISO-8859-15 à UTF-8 doublerait la taille des fichiers texte. C'est faux. Voyons pourquoi. -L'encodage ISO-8859-15 utilise 1 octet (8 bits) pour représenter chaque caractère. Cela signifie qu'il peut représenter 256 caractères différents en utilisant un nombre limité d'octets. L'ISO-8859-15 est conçu pour couvrir les caractères utilisés dans les langues européennes occidentales, y compris le français, l'anglais, l'allemand et d'autres. Par conséquent, pour de nombreux textes dans ces langues, l'ISO-8859-15 peut suffire à représenter le contenu avec une taille raisonnable. Cependant, l'ISO-8859-15 n'est pas capable de représenter les caractères utilisés dans d'autres langues et peut ne pas être suffisant pour les applications qui nécessitent une plus grande variété de caractères. +## ISO-8859-15 : un octet par caractère, mais 256 caractères seulement -L'UTF-8 peut utiliser de 1 à 4 octets (8 bits chacun) pour représenter un seul caractère. Cela signifie qu'il peut représenter plus de 1 million de caractères différents, ce qui en fait un encodage très flexible pour les applications qui nécessitent une variété de caractères pour différentes langues et scripts. +L'ISO-8859-15 utilise exactement **1 octet (8 bits) par caractère**. Cela lui permet de représenter 256 caractères, ce qui suffit pour couvrir les langues d'Europe occidentale (français, anglais, allemand, espagnol, etc.). -L'UTF-8 utilise une "variable longueur" de codage, ce qui signifie qu'il peut utiliser autant d'octets pour représenter les caractères les plus courants, tels que ceux utilisés en français et en anglais. En conséquence, pour certains textes, l'UTF-8 peut prendre autent de place que d'autres encodages, tels que l'ISO-8859-15, mais pas plus. Cependant, pour d'autres textes qui utilisent un grand nombre de caractères non-ASCII, l'UTF-8 peut nécessiter plus d'espace pour les représenter. +Cette compacité a un prix : l'ISO-8859-15 est incapable de représenter les caractères d'autres alphabets (cyrillique, arabe, chinois, emoji…). Pour toute application multilingue, il est inadapté. -Non, l'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 de manière générale. En fait, l'UTF-8 peut prendre plus ou moins de place que l'ISO-8859-15, selon la complexité des caractères codés. L'UTF-8 est conçu pour prendre autant de place que l'ISO-8859-15 pour les caractères les plus courants, mais peut prendre plus de place pour les caractères plus rares ou complexes. +## UTF-8 : un codage à longueur variable -L'UTF-8 peut utiliser jusqu'à 4 octets pour représenter un seul caractère, ce qui est plus que le 1 octet (8 bits) utilisé par l'ISO-8859-15. Cependant, l'UTF-8 est conçu pour être aussi compact que l'ISO-8859-15 pour les caractères courants, en utilisant autant d'octets pour les représenter. L'UTF-8 utilise une variable longueur de codage pour représenter les caractères. De plus, l'UTF-8 est conçu pour être compatible avec les codes ASCII, qui sont utilisés pour représenter les caractères les plus courants dans de nombreuses langues, y compris le français et l'anglais. En conséquence, pour de nombreux textes en français ou en anglais, l'UTF-8 peut effectivement prendre autant de place que l'ISO-8859-15, mais pas plus. \ No newline at end of file +L'UTF-8 utilise **de 1 à 4 octets par caractère**, ce qui lui permet de représenter plus d'un million de caractères Unicode. Sa particularité tient à son codage à longueur variable : + +- **1 octet** pour les caractères ASCII (a-z, A-Z, 0-9, ponctuation de base) ; +- **2 octets** pour les caractères latins accentués (é, à, ç, ü…) et la plupart des alphabets européens ; +- **3 octets** pour la majorité des autres scripts (chinois, japonais, arabe…) ; +- **4 octets** pour les caractères rares et les emoji. + +L'UTF-8 est par ailleurs **rétro-compatible avec l'ASCII** : un fichier purement ASCII a exactement la même taille en UTF-8 qu'en ISO-8859-15. + +## Et concrètement, pour un texte français ? + +Pour un texte en français, la grande majorité des caractères sont en ASCII (lettres non accentuées, espaces, ponctuation) et n'occupent qu'**un seul octet en UTF-8**, comme en ISO-8859-15. Seuls les caractères accentués passent à 2 octets en UTF-8. + +Comme les accents représentent une faible proportion du texte, le surcoût réel est généralement **de l'ordre de quelques pourcents**, et non d'un facteur deux. + +## En résumé + +Non, l'UTF-8 ne prend pas deux fois plus de place que l'ISO-8859-15. Selon le contenu : + +- pour du texte **ASCII pur** : taille identique ; +- pour du **français courant** : surcoût marginal (quelques %) ; +- pour des langues à scripts non latins : surcoût plus marqué, mais c'est le prix de l'universalité. + +Au regard de sa capacité à représenter l'ensemble des écritures du monde, l'UTF-8 reste un excellent compromis entre compacité et flexibilité — et le standard de fait du web moderne. \ No newline at end of file diff --git a/12ed0b43-7dd6-40f2-a44a-e560e184e344/meta.json b/12ed0b43-7dd6-40f2-a44a-e560e184e344/meta.json index 22da805..69ae9d9 100644 --- a/12ed0b43-7dd6-40f2-a44a-e560e184e344/meta.json +++ b/12ed0b43-7dd6-40f2-a44a-e560e184e344/meta.json @@ -4,15 +4,24 @@ "title": "L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15", "author": "cedric@abonnel.fr", "published": true, - "published_at": "2023-02-06 20:43:44", + "featured": false, + "published_at": "2023-02-06 20:43", "created_at": "2023-02-06 20:43:44", - "updated_at": "2023-02-06 20:43:44", - "revisions": [], + "updated_at": "2026-05-16 17:13:53", + "revisions": [ + { + "n": 1, + "date": "2026-05-16 17:13:53", + "comment": "Contenu modifié", + "title": "L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15" + } + ], "cover": "", "files_meta": [], "external_links": [], "seo_title": "", "seo_description": "", "og_image": "", - "category": "Journal geek" + "category": "Journal geek", + "tags": [] } diff --git a/12ed0b43-7dd6-40f2-a44a-e560e184e344/revisions/0001.md b/12ed0b43-7dd6-40f2-a44a-e560e184e344/revisions/0001.md new file mode 100644 index 0000000..71ba09b --- /dev/null +++ b/12ed0b43-7dd6-40f2-a44a-e560e184e344/revisions/0001.md @@ -0,0 +1,13 @@ +# L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 + +![](dummy.png) + +L'encodage ISO-8859-15 utilise 1 octet (8 bits) pour représenter chaque caractère. Cela signifie qu'il peut représenter 256 caractères différents en utilisant un nombre limité d'octets. L'ISO-8859-15 est conçu pour couvrir les caractères utilisés dans les langues européennes occidentales, y compris le français, l'anglais, l'allemand et d'autres. Par conséquent, pour de nombreux textes dans ces langues, l'ISO-8859-15 peut suffire à représenter le contenu avec une taille raisonnable. Cependant, l'ISO-8859-15 n'est pas capable de représenter les caractères utilisés dans d'autres langues et peut ne pas être suffisant pour les applications qui nécessitent une plus grande variété de caractères. + +L'UTF-8 peut utiliser de 1 à 4 octets (8 bits chacun) pour représenter un seul caractère. Cela signifie qu'il peut représenter plus de 1 million de caractères différents, ce qui en fait un encodage très flexible pour les applications qui nécessitent une variété de caractères pour différentes langues et scripts. + +L'UTF-8 utilise une "variable longueur" de codage, ce qui signifie qu'il peut utiliser autant d'octets pour représenter les caractères les plus courants, tels que ceux utilisés en français et en anglais. En conséquence, pour certains textes, l'UTF-8 peut prendre autent de place que d'autres encodages, tels que l'ISO-8859-15, mais pas plus. Cependant, pour d'autres textes qui utilisent un grand nombre de caractères non-ASCII, l'UTF-8 peut nécessiter plus d'espace pour les représenter. + +Non, l'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15 de manière générale. En fait, l'UTF-8 peut prendre plus ou moins de place que l'ISO-8859-15, selon la complexité des caractères codés. L'UTF-8 est conçu pour prendre autant de place que l'ISO-8859-15 pour les caractères les plus courants, mais peut prendre plus de place pour les caractères plus rares ou complexes. + +L'UTF-8 peut utiliser jusqu'à 4 octets pour représenter un seul caractère, ce qui est plus que le 1 octet (8 bits) utilisé par l'ISO-8859-15. Cependant, l'UTF-8 est conçu pour être aussi compact que l'ISO-8859-15 pour les caractères courants, en utilisant autant d'octets pour les représenter. L'UTF-8 utilise une variable longueur de codage pour représenter les caractères. De plus, l'UTF-8 est conçu pour être compatible avec les codes ASCII, qui sont utilisés pour représenter les caractères les plus courants dans de nombreuses langues, y compris le français et l'anglais. En conséquence, pour de nombreux textes en français ou en anglais, l'UTF-8 peut effectivement prendre autant de place que l'ISO-8859-15, mais pas plus. \ No newline at end of file