Editorial: Faktor 1500
Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa
In den meisten Meldungen zur neuen
Version 14
des Unicode-Standards stand nur:
Es gibt bald 37 neue Emojis.
Dabei ist 37 eine deutliche Untertreibung, denn viele der
neuen Emojis gibt es in mehreren Varianten, beispielsweise
die nach rechts oder nach links zeigende Hand in den ganzen
Varianten von hellhäutig bis dunkelhäutig. Insgesamt wurden im
neuen Unicode-Standard sogar 838 neue Codes spezifiziert. Gut ein
Drittel davon ist für fünf
neue (bzw. überwiegend historische)
Sprachen, sodass inzwischen 159 verschiedene Sprachen in
Unicode codiert werden können. Viele andere Codes runden die
Unterstützung für die bestehenden sprachen ab, beispielsweise
durch die Ergänzung von Sonderzeichen.
Die Zeit der großen Sprünge scheint bei Unicode dennoch vorbei: 144 697 Zeichen gibt es nun insgesamt, der neue Standard erhöht die Zahl also um nicht einmal ein Prozent. Fast zwei Drittel der Zeichen, nämlich 92 865, gehören zu den chinesischen, japanischen und koreanischen Sprachen.
Anglozentrisches Denken: ASCII
Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa
Begonnen hatte die Standardisierung der Computer-Zeichensätze
allerdings in den USA mit ASCII, der Abkürzung von
"American Standard Code for Information Interchange": Dieser gerade
mal 95 Zeichen umfassende Code enthält alle Groß- und Kleinbuchstaben
von A bis Z, die lateinischen Ziffern und etliche Rechen- und
Interpunktionszeichen. Zur Freude der Mathematiker und Programmierer
waren bei ASCII gleich drei Typen von Klammern (nämlich (), [] und
{}) dabei. Aber es fehlten sämtliche Zeichen und Buchstaben, die
außerhalb der USA verwendet werden. Im Laufe der Jahre wurden einige
Symbole im ASCII-Zeichensatz
umplatziert: Der von E-Mail-Adressen bekannnte Klammeraffe
@ wurde 1963 beispielsweise mit dem Code 0x40 spezifiziert, 1965 dann
auf 0x60 gewechselt, bevor er 1967 auf 0x40 zurückwechselte.
Die deutschen Umlaute wie ä oder ß waren in ASCII ebenso wenig zu finden wie internationale Währungssymbole wie das Pfund-Zeichen £ oder gar abweichende Alphabete wie das griechische oder kyrillische. Doch es gab eine glückliche Fügung: ASCII belegt zusammen mit den 33 Steuercodes (mit denen Informationen wie "neue Zeile", "neue Seite" oder "Ende der Eingabe" codiert werden) nur 128 Code-Punkte. Moderne Prozessoren können mit einem Byte aber 256 verschiedene Code-Punkte darstellen.
Also wurde ASCII beispielsweise im ISO-8859-1-Standard erweitert, um deutsche Umlaute, französische Akzente und weitere europäische Sonderzeichen darzustellen. ISO-8859-5 enthielt hingegen die kyrillischen Buchstaben. Das Problem: Diese Erweiterungen waren alle inkompatibel zueinander. Hatte man sein Betriebssystem auf ISO-8859-1 eingestellt, und lud dann einen kyrillischen Text in ein Textprogramm, dann erschienen stattdessen wilde Umlaute.
Die IT wird international: Unicode 1 erscheint
Erst 1991 erschien mit Unicode 1.0 ein vereinheitlichter Zeichensatz, der gut ein dutzend vorher inkompatible Erweiterungen integrierte. Um möglichst wenige Systeme ändern zu müssen, wurde der ASCII-Standard unverändert in Unicode adaptiert: Die genannten 95 Textzeichen und 33 Steuerzeichen wurden also unverändert übernommen. Danach folgt direkt die westeuropäische ISO-8859-1-Codeseite, und dann zahlreiche weitere Sprachen von Griechisch bis Tibetisch. Das Problem: Für alle Zeichen außerhalb des ASCII-Bereichs mussten nun mindestens zwei Byte zur Speicherung aufgewendet werden. Der Umfang von nicht-englischen Textdateien wuchs also an, in Westeuropa etwas (wo nur die nationalen Sonderzeichen nun aufwändiger codiert werden mussten), in Osteuropa oder Südostasien sogar deutlich. Die CJK-Sprachen (Chinesisch, Japanisch und Koreanisch) mit ihren vielen Symbolen kamen 1992 in der Unicode-Revision 1.0.1 dazu. Auch hier erhöhte sich der Speicherbedarf.
Dennoch überwiegen inzwischen die Vorteile der einheitlichen Codierung drastisch. Ohne Unicode gäbe es jedes Mal Datensalat, wenn eine WhatsApp-Nachricht von Russland nach China oder von Griechenland nach Südamerika geschickt wird. Die zahlreichen Emojis, auch, wenn sicher eine der inzwischen am häufigsten verwendeten Erweiterungen, sind also nur ein kleiner Teil dieser international äußerst erfolgreichen Kooperation. Damit die Kommunikation überall funktioniert, ist es also gut, dass Unicode mehr als 1500 mal so viele Zeichen hat wie das Original-ASCII.