Editorial: Faktor 1500

Unicode enthält das Vielfache der Zeichenzahl von Original-ASCII - zum Vorteil der Kommunikation aller. Trotzdem ist ein Unicode-Feature besonders beliebt

Von Kai Petzke

Emojis Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa In den meisten Meldungen zur neuen Version 14 des Unicode-Standards stand nur: Es gibt bald 37 neue Emojis. Dabei ist 37 eine deutliche Untertreibung, denn viele der neuen Emojis gibt es in mehreren Varianten, beispielsweise die nach rechts oder nach links zeigende Hand in den ganzen Varianten von hellhäutig bis dunkelhäutig. Insgesamt wurden im neuen Unicode-Standard sogar 838 neue Codes spezifiziert. Gut ein Drittel davon ist für fünf neue (bzw. überwiegend historische) Sprachen, sodass inzwischen 159 verschiedene Sprachen in Unicode codiert werden können. Viele andere Codes runden die Unterstützung für die bestehenden sprachen ab, beispielsweise durch die Ergänzung von Sonderzeichen.

Die Zeit der großen Sprünge scheint bei Unicode dennoch vorbei: 144 697 Zeichen gibt es nun insgesamt, der neue Standard erhöht die Zahl also um nicht einmal ein Prozent. Fast zwei Drittel der Zeichen, nämlich 92 865, gehören zu den chinesischen, japanischen und koreanischen Sprachen.

Anglozentrisches Denken: ASCII

Emojis Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa Begonnen hatte die Standardisierung der Computer-Zeichensätze allerdings in den USA mit ASCII, der Abkürzung von "American Standard Code for Information Interchange": Dieser gerade mal 95 Zeichen umfassende Code enthält alle Groß- und Kleinbuchstaben von A bis Z, die lateinischen Ziffern und etliche Rechen- und Interpunktionszeichen. Zur Freude der Mathematiker und Programmierer waren bei ASCII gleich drei Typen von Klammern (nämlich (), [] und {}) dabei. Aber es fehlten sämtliche Zeichen und Buchstaben, die außerhalb der USA verwendet werden. Im Laufe der Jahre wurden einige Symbole im ASCII-Zeichensatz umplatziert: Der von E-Mail-Adressen bekannnte Klammeraffe @ wurde 1963 beispielsweise mit dem Code 0x40 spezifiziert, 1965 dann auf 0x60 gewechselt, bevor er 1967 auf 0x40 zurückwechselte.

Die deutschen Umlaute wie ä oder ß waren in ASCII ebenso wenig zu finden wie internationale Währungssymbole wie das Pfund-Zeichen £ oder gar abweichende Alphabete wie das griechische oder kyrillische. Doch es gab eine glückliche Fügung: ASCII belegt zusammen mit den 33 Steuercodes (mit denen Informationen wie "neue Zeile", "neue Seite" oder "Ende der Eingabe" codiert werden) nur 128 Code-Punkte. Moderne Prozessoren können mit einem Byte aber 256 verschiedene Code-Punkte darstellen.

Also wurde ASCII beispielsweise im ISO-8859-1-Standard erweitert, um deutsche Umlaute, französische Akzente und weitere europäische Sonderzeichen darzustellen. ISO-8859-5 enthielt hingegen die kyrillischen Buchstaben. Das Problem: Diese Erweiterungen waren alle inkompatibel zueinander. Hatte man sein Betriebssystem auf ISO-8859-1 eingestellt, und lud dann einen kyrillischen Text in ein Textprogramm, dann erschienen stattdessen wilde Umlaute.

Die IT wird international: Unicode 1 erscheint

Erst 1991 erschien mit Unicode 1.0 ein vereinheitlichter Zeichensatz, der gut ein dutzend vorher inkompatible Erweiterungen integrierte. Um möglichst wenige Systeme ändern zu müssen, wurde der ASCII-Standard unverändert in Unicode adaptiert: Die genannten 95 Textzeichen und 33 Steuerzeichen wurden also unverändert übernommen. Danach folgt direkt die westeuropäische ISO-8859-1-Codeseite, und dann zahlreiche weitere Sprachen von Griechisch bis Tibetisch. Das Problem: Für alle Zeichen außerhalb des ASCII-Bereichs mussten nun mindestens zwei Byte zur Speicherung aufgewendet werden. Der Umfang von nicht-englischen Textdateien wuchs also an, in Westeuropa etwas (wo nur die nationalen Sonderzeichen nun aufwändiger codiert werden mussten), in Osteuropa oder Südostasien sogar deutlich. Die CJK-Sprachen (Chinesisch, Japanisch und Koreanisch) mit ihren vielen Symbolen kamen 1992 in der Unicode-Revision 1.0.1 dazu. Auch hier erhöhte sich der Speicherbedarf.

Dennoch überwiegen inzwischen die Vorteile der einheitlichen Codierung drastisch. Ohne Unicode gäbe es jedes Mal Datensalat, wenn eine WhatsApp-Nachricht von Russland nach China oder von Griechenland nach Südamerika geschickt wird. Die zahlreichen Emojis, auch, wenn sicher eine der inzwischen am häufigsten verwendeten Erweiterungen, sind also nur ein kleiner Teil dieser international äußerst erfolgreichen Kooperation. Damit die Kommunikation überall funktioniert, ist es also gut, dass Unicode mehr als 1500 mal so viele Zeichen hat wie das Original-ASCII.

Weitere Editorials

31.03.24 - Editorial: Die klare Strategie fehlt bei Sky
03.12.23 - Abschaltdatum für DSL 2032: Chancen und Risiken
22.10.23 - Editorial: Diskussion um UKW-Abschaltung völlig unnötig
15.10.23 - Editorial: Darum muss das Handy zwingend geschützt sein
25.06.23 - Editorial: Das muss bei der eSIM künftig besser laufen
29.05.23 - Glasfaser: Angst vor strategischem Überbau
16.04.23 - Warum ein Ende von DVB-T2 HD fahrlässig wäre
19.03.23 - Editorial: Warum Amazon gegen Roku und Google gewinnt
05.03.23 - Editorial: freenet wirft Kunden Tarifwechsel-Faulheit vor?
12.02.23 - Editorial: Kurswechsel bei RTL unausweichlich
15.01.23 - Mobilfunk: Mehr Wettbewerb ist nötig
01.01.23 - Editorial: Trotziger 1&1-Netzstart - Enttäuschung zu erwarten
18.12.22 - Editorial: Bringt Werbung für Disney+ die Wende?
06.11.22 - Editorial: Prime Music kaputt - Amazon als Kulturbanause?
23.10.22 - Editorial: Huawei - Technik vs. Politik
25.09.22 - Editorial: Wende im Mobilfunkmarkt?
18.09.22 - Editorial: Alles muss vernetzt sein?
31.07.22 - Editorial: Wer braucht noch Fernsehen?
24.07.22 - Editorial: Viel Wind um "Nichts"
18.07.22 - "Gemeine Schnittstellen": Zusätzliche Abwehrstrategien geboten
19.06.22 - Editorial: Warum findet die BNetzA teure Drossel-Tarife toll?
12.06.22 - Editorial: StreamOn- & Vodafone-Pass-Ersatz? Das war nix!
05.06.22 - Editorial: Gebrauchtes Handy? Ja, aber bitte neue Software!
22.05.22 - Editorial: EDGE statt 5G SA - Realität vs. Vodafone-Werbung
15.05.22 - Editorial: Streit um UHF-Frequenzen - Kompromisse möglich
01.05.22 - Nach StreamOn-Aus: Die harte Daten-Drossel muss weg
19.04.22 - Neuer Vodafone-Chef: Zeit für echten Wandel?
27.03.22 - Editorial: Es gibt keine Höhepunkte mehr
20.03.22 - Vier Netze in Deutschland: Wie lange wird das so bleiben?
06.03.22 - Editorial: Wir brauchen eine neue Bundesnetzagentur
27.02.22 - Editorial: Wann kommt das nächste große Ding?
20.02.22 - Editorial: Wer zahlt?
13.02.22 - Editorial: Drohen ja, abschalten nein
06.02.22 - Editorial: Integrieren statt Abschalten
30.01.22 - Editorial: Längere Smartphone-Lebensdauer!?
23.01.22 - Editorial: 5G verhindert Chemtrails
16.01.22 - Editorial: App statt Bank!?
09.01.22 - Editorial: 600 Millionen Euro Verlust!?
02.01.22 - Editorial: Weg von Weihnachten!
26.12.21 - Editorial: Zahlen wird teurer

Anglo­zen­tri­sches Denken: ASCII

Die IT wird inter­national: Unicode 1 erscheint

Weitere Edito­rials

Anglozentrisches Denken: ASCII

Die IT wird international: Unicode 1 erscheint

Weitere Editorials