Aby počítač mohl zobrazit text, musí existovat dohoda, které číslo (bajt) odpovídá kterému grafickému znaku (písmenu).
Skromné začátky
základní kódovací tabulka, která přiřazuje číselné hodnoty (0–127) anglickým písmenům, číslicím a symbolům
Využíval jen 7 bitů, což stačilo na 128 znaků.
Obsahuje velká a malá písmena bez diakritiky, číslice 0–9 a základní interpunkci.
Chybí mu symboly pro většinu světových jazyků včetně češtiny.
Když se k ASCII přidalo "české" kódování (např. Latin 2 nebo Windows-1250), obsadilo se zbývajících 128 volných míst v bajtu.
Pokud odesílatel použil jiné kódování než příjemce, místo „Příliš žluťoučký kůň“ se zobrazilo „Pøíli¹ ¾lu钮uèký kùò“.
Globální řešení
Unicode je obrovská databáze, která přiděluje unikátní číslo každému znaku na světě.
UTF-8 je způsob, jak tato čísla zapsat do bajtů (může používat 1 až 4 bajty na znak).
Podporuje latinku, azbuku, čínštinu, matematické symboly i emotikony.
Dnes je to standard pro 99 % webových stránek.