Znakové sady

Aby počítač mohl zobrazit text, musí existovat dohoda, které číslo (bajt) odpovídá kterému grafickému znaku (písmenu).

ASCII

Skromné začátky
základní kódovací tabulka, která přiřazuje číselné hodnoty (0–127) anglickým písmenům, číslicím a symbolům
Využíval jen 7 bitů, což stačilo na 128 znaků.
Obsahuje velká a malá písmena bez diakritiky, číslice 0–9 a základní interpunkci.
Chybí mu symboly pro většinu světových jazyků včetně češtiny.

Problém s kódovými stránkami:

Když se k ASCII přidalo "české" kódování (např. Latin 2 nebo Windows-1250), obsadilo se zbývajících 128 volných míst v bajtu.
Pokud odesílatel použil jiné kódování než příjemce, místo „Příliš žluťoučký kůň“ se zobrazilo „Pøíli¹ ¾lu钮uèký kùò“.

Unicode a UTF-8

Globální řešení
Unicode je obrovská databáze, která přiděluje unikátní číslo každému znaku na světě.
UTF-8 je způsob, jak tato čísla zapsat do bajtů (může používat 1 až 4 bajty na znak).
Podporuje latinku, azbuku, čínštinu, matematické symboly i emotikony.
Dnes je to standard pro 99 % webových stránek.

Page updated

Google Sites

Report abuse