Un ordinateur stocke chaque lettre et un symbole de texte en tant que séquence de bits - uns et de zéros binaires . Systèmes codant pour la alphabet , la ponctuation et autres symboles ont évolué au cours du 20e siècle , conduisant à ANSI et Unicode. ANSI, qui a surgi plus tôt , utilise moins de bits , mais accueille des langues non européennes avec difficulté ; Unicode englobe de nombreux caractères asiatiques et du Moyen-Orient ainsi que l'ensemble romain utilisé pour l'anglais et d'autres langues européennes. Taille
L'ensemble ANSI encode les caractères à l'aide de huit bits, ou un octet de données , il gère jusqu'à 256 symboles différents à la fois . Le système Unicode utilise 16 bits, ou deux octets , pouvant accueillir 256 x 256 ou 65.536 symboles. En outre, Unicode dispose de 17 avions de codage , permettant un total de plus de 1 million de symboles. Pour les langues avec les jeux de caractères non -romains , ANSI utilise un nombre de 16 bits supplémentaire appelé une page de code . Un ordinateur stocke ce nombre une fois , pas avec tous les personnages , ce qui donne plus de flexibilité au système de codage ANSI .
Langues
ANSI jeu connu sous le nom "Windows 1252, " où « 1252 » désigne le nombre de pages de code, est le plus populaire , couvrant anglais et plusieurs langues européennes. D'autres pages de code définissent d'autres langues, comme 1254 pour la Turquie et 1255 pour l'hébreu . Unicode, en raison de sa plus grande taille de caractère , peut accueillir intrinsèquement plus de symboles , y compris ceux pour le thaï , le braille, Cherokee et vieux perse .
Plates-formes
ANSI a grandi à partir de Windows système d'exploitation de Microsoft , après avoir été mis au point par Microsoft et IBM . Des chercheurs de Apple et Xerox ont collaboré à Unicode , que Microsoft a adopté plus tard . Au moment de la publication , Windows prend en charge la norme ANSI et Unicode. Mac OS X utilise son propre code de caractères à huit bits , semblable à la norme ANSI , et prend également en charge Unicode. Le système d'exploitation Linux fournit également le support Unicode .
Tri
Le jeu de caractères Roman a toujours permis aux utilisateurs d'organiser et trier les informations en utilisant l'ordre de ses personnages . Codes ANSI suivre l'ordre des caractères romains, de sorte que la valeur d'un "T" est supérieure à celle d'un «B», qui rend les tâches informatiques telles que le tri presque automatique. Bien Unicode peut également trier les informations en fonction de l'ordre des caractères , il est un processus plus complexe . Les 127 premiers caractères Unicode comprennent les lettres romaines majuscules et minuscules, permettant le tri des anglais et d'autres langues européennes. Chaque langue non -romaine a sa propre formule de tri, ou un algorithme .