🍋
Menu
General

UTF-8

UTF-8 (Unicode Transformation Format 8-bit)

Die vorherrschende Zeichenkodierung des Web, die jedes Zeichen des Unicode-Standards mit ein bis vier Bytes pro Zeichen darstellen kann und dabei abwärtskompatibel mit ASCII bleibt.

Technisches Detail

UTF-8 ist eine Kodierung variabler Breite: ASCII-Zeichen (U+0000 bis U+007F) verwenden ein Byte, identisch mit ihren ASCII-Werten, sodass jeder ASCII-Text gültiges UTF-8 ist. Zwei Bytes decken Lateinisch, Griechisch, Kyrillisch und Arabisch ab (U+0080-U+07FF), drei Bytes die meisten CJK-Zeichen (U+0800-U+FFFF) und vier Bytes Emoji und seltene Schriftsysteme (U+10000-U+10FFFF). Über 98% der Webseiten verwenden UTF-8. Die BOM (Byte Order Mark, EF BB BF) ist optional und wird generell abgeraten, ausser in Windows-Kontexten.

Beispiel

```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
  const data = e.target.result;
  console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```

Verwandte Begriffe