Wissenwertes - Zeichensätze und Sonderzeichen

in HTML (Hyper Text Markup Language)

Umlaute, die Stiefkinder unserer Buchstabenfamilie. Leider bis heute immernoch nicht als vollwertige Mitglieder der Buchstabenfamilie zugehörig.
In diesem Beitrag möchten wir erklären warum das so ist und wie man sie doch richtig mit einbindet.

UTF-8: Was ist das?

Die meisten Webseiten im WWW haben am Anfang des Quelltextes ein meta-Element, in dem der Zeichensatz definiert wird, mit welchem der Browser den Text auf der Webseite darstellen soll:

<meta charset="utf-8">

Eine solche Angabe ist unerlässlich um die korrekte Darstellung von Umlauten und anderen Sonderzeichen auf einer Webseite gewährleisten zu können. Denn ein Computer kennt keine Buchstaben, sondern nur Zahlen, die mithilfe einer Schablone am Bildschirm als Zeichen dargestellt werden. So eine Schablone wird Zeichensatz genannt und war lange Zeit auf 256Zeichen begrenzt.

Da aber schnell klar wurde das auf unserem Planeten mit zahlreichen Sprachen mehr wie nur 256 Zeichen benutzt werden brauchte es verschiedene Zeichensätze mit jeweils unterschiedlichen Zeichen. Aus diesem Grund bedarf der Computer einer Anweisung die ihm sagt welcher Zeichensatz für das Anzuzeigende benötigt wird.

Hier hat die der UNO unterstellte International Organization for Standardization (ISO) in der  die Norm 8859 fünfzehn verschiedene Zeichensätze definiert, in denen je nach Sprachgebrauch verschiedene Zeichen bereitgestellt werden. Der Zeichensatz ISO-8859-1 (teils auch ANSI genannt) ist für westeuropäische Sprachen geadacht und galt lange Zeit als Standard.

Damit die Schablone mit ihren 256 Zeichen gesprengt werden konnte wurde Unicode ins leben gerufen. Das "Uni" im Namen steht für universell dessen Ziel es war einen Zeichensatz für alle Zeichen zu erstellen. UTF-8 ist also ein Unicode-Format und kann bis zu  1.114.112 Zeichen abbilden.

Es hat  sich in den letzten Jahren zum Zeichensatzstandard für das WWW entwickelt. Generell haben moderne Betriebssysteme hiermit  auch keine Probleme. Wenn also nichts dagegen spricht ausser es besteht ein BOM, solltet Ihr immer UTF-8 verwenden.

BOM steht für Byte Order Mark und besteht aus 3 Bytes, welche ganz am Anfang des Dokumentes stehen.  Da ein BOM unter UTF-8 optional ist und es dadurch im Browser unter ungünstigen Umständen zu verwirrenden Zeichenfolgen kommen kann. Solltet Ihr immer versuchen ohne BOM zu speichern.

Wie sieht es also mit Sonderzeichen aus?

Sonderzeichen bedürfen oftmals einer genauen Betrachtung, denn genau wie bei Computern generell entstehen auch bei Webseiten bzw. den anzeigenden Browsern Probleme. Mithilfe des oben beschriebenen meta-Elements sagt Ihr dem Browser zwar wie er die Sonderzeichen einzuordnen und anzuzeigen hat, aber das funktioniert leider nicht immer. Um euch sicher zu sein, dass diese Sonderzeichen in jedem Browser richtig angezeigt werden gibt es die Möglichkeit eben diese auch eigenständig zu kodieren.

Diese Kodierung erfolgt im HTML-Quelltext und beginnt mit & gefolgt von einem Kürzel, welches eine Buchstaben oder Zahlenkombination sein kann, und endet mit einem ; (Semikolon).

In der folgenden Tabelle haben wir euch die ein paar Zeichen, die HTML-schreibweise und die Beschreibung aufgeführt:

Zeichen In HTML Beschreibung
< &lt; less than
> &gt; greater than
& &amp; Ampersand
&euro; euro
" &quot; quotation marks
© &copy; copyright sign
® &reg; registered trademark
· &middot; middle dot
&apos; apostroph
Ä &Auml; A Umlaut
ä &auml; a Umlaut
Ü &Uuml; U Umlaut
ü &uuml; u Umlaut
Ö &Ouml; O Umlaut
ö &ouml; o Umlaut
ß &szlig; sz ligature
1 &sup1; Hoch 1 Zeichen

eine vollständige Liste findet Ihr auf: selfhtml