L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15

Une idée reçue circule : passer d'ISO-8859-15 à UTF-8 doublerait la taille des fichiers texte. C'est faux. Voyons pourquoi.

ISO-8859-15 : un octet par caractère, mais 256 caractères seulement

L'ISO-8859-15 utilise exactement 1 octet (8 bits) par caractère. Cela lui permet de représenter 256 caractères, ce qui suffit pour couvrir les langues d'Europe occidentale (français, anglais, allemand, espagnol, etc.).

Cette compacité a un prix : l'ISO-8859-15 est incapable de représenter les caractères d'autres alphabets (cyrillique, arabe, chinois, emoji…). Pour toute application multilingue, il est inadapté.

UTF-8 : un codage à longueur variable

L'UTF-8 utilise de 1 à 4 octets par caractère, ce qui lui permet de représenter plus d'un million de caractères Unicode. Sa particularité tient à son codage à longueur variable :

1 octet pour les caractères ASCII (a-z, A-Z, 0-9, ponctuation de base) ;
2 octets pour les caractères latins accentués (é, à, ç, ü…) et la plupart des alphabets européens ;
3 octets pour la majorité des autres scripts (chinois, japonais, arabe…) ;
4 octets pour les caractères rares et les emoji.

L'UTF-8 est par ailleurs rétro-compatible avec l'ASCII : un fichier purement ASCII a exactement la même taille en UTF-8 qu'en ISO-8859-15.

Et concrètement, pour un texte français ?

Pour un texte en français, la grande majorité des caractères sont en ASCII (lettres non accentuées, espaces, ponctuation) et n'occupent qu'un seul octet en UTF-8, comme en ISO-8859-15. Seuls les caractères accentués passent à 2 octets en UTF-8.

Comme les accents représentent une faible proportion du texte, le surcoût réel est généralement de l'ordre de quelques pourcents, et non d'un facteur deux.

En résumé

Non, l'UTF-8 ne prend pas deux fois plus de place que l'ISO-8859-15. Selon le contenu :

pour du texte ASCII pur : taille identique ;
pour du français courant : surcoût marginal (quelques %) ;
pour des langues à scripts non latins : surcoût plus marqué, mais c'est le prix de l'universalité.

Au regard de sa capacité à représenter l'ensemble des écritures du monde, l'UTF-8 reste un excellent compromis entre compacité et flexibilité — et le standard de fait du web moderne.

2.4 KiB Raw Blame History

L'UTF-8 ne prend pas deux fois plus de place que l'encodage ISO-8859-15

ISO-8859-15 : un octet par caractère, mais 256 caractères seulement

UTF-8 : un codage à longueur variable

Et concrètement, pour un texte français ?

En résumé

2.4 KiB

Raw Blame History