A Unicode-karakterek elhelyezkedése

A Unicode 1 114 112 (= 220 + 216 vagy 17 × 216, hexadecimálisan 110000) kódérték számára biztosít helyet.

A Unicode 5.0.0 esetében a kódértékek közül 101 063 (9,1%) karakterekhez van hozzárendelve, 137 468 (12,3%) van fenntartva saját használatra, a maradék 875 441 (78,6%) szabad. A karakterekhez rendelt kódértékek közül:

98 884 a graféma
140 a formázó karakter
65 a vezérlő karakter és
2 048 az úgynevezett pótló karakter.

Az első 256 kód megegyezik az ISO 8859-1 kiosztásával – az egyik legismertebb karakterkódolási szabvány a nyugati nyelvekre. Végeredményben az első 128 karakter megegyezik az ASCII karaktereivel.

A Unicode-karakterek számára fenntartott kódterület 17 lapra (plane) van felosztva, minden egyes lap 65 536 (= 216) kódpontot tartalmaz, azonban jelenleg csak néhány lap van használatban:

  • 0. lap (0000–FFFF): Alap többnyelvű lap - Basic Multilingual Plane (BMP)
  • 1. lap (10000–1FFFF): Kiegészítő többnyelvű lap – Supplementary Multilingual Plane (SMP)
  • 2. lap (20000–2FFFF): Kiegészítő lap a szókép lapokhoz – Supplementary Ideographic Plane (SIP)
  • 3. laptól a 13. lapig (30000–DFFFF) nem használt
  • 14. lap (E0000–EFFFF): Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP)
  • 15. lap (F0000–FFFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)
  • 16. lap (100000–10FFFF) saját használatú terület céljára fenntartva – Private Use Area (PUA)

A 220 feletti kódpontok (nem értve ide a 16. lapot) azért vannak, hogy biztosítsák a kompatibilitást az UTF-16 kódolással, amely címei ebbe a tartományba esnek (lásd később). Jelenleg a Unicode-kódterület mintegy 10%-a van kihasználva. A jövőben a különféle karaktertartományokat feltöltik az ismert írásokkal (lásd: [1]), és lehetséges, hogy szüksége lesz a Unicode-nak egy másik lapra a szóképek kezelésére, de van tíz nem használt lap még arra a célra, ha előre nem látott, eddig ismeretlen írások bukkannának fel. Jelenleg úgy látszik, hogy a 21 bites korlátot a Unicode a közeljövőben nem fogja meghaladni.

Alap többnyelvű lap

Az első lap (Nulladik lap), az Alap többnyelvű lap - Basic Multilingual Plane, (BMP) - az, amelyen a legtöbb karakterkód található. A BMP főként a modern nyelvek karaktereit tartalmazza, valamint nagy számú speciális karaktert is. A BMP-ben legtöbb "helyet" a kínai, japán és koreai (CJK) karakterek foglalják el.

Az alap többnyelvű lap térképe. Minden számozott négyzet 256 kódértéket jelöl.

A jobb oldali képen az Alap többnyelvű lap (BMP) kiosztásának vizuális képe látható. A használt színek jelentései:

  •  fekete  = Latin írás és szimbólumok
  •  világoskék  = Nyelvészeti karakterek
  •  kék  = Egyéb európai írások
  •  narancssárga  = Közép-Kelet és délnyugat-ázsiai írások
  •  világosnarancs  = Afrikai írások
  •  zöld  = Dél-ázsiai írások
  •  bíbor  = délkelet-ázsiai írások
  •  piros  = Kelet-ázsiai írások
  •  világospiros  = Egyszerűsített CJK Han
  •  sárga  = Aborigin írások
  •  lila  = Szimbólumok
  •  sötét szürke  = Diakritikus jelek
  •  világosszürke  = UTF-16 pótlók és saját használatra fenntartott
  •  cián  = Vegyes karakterek
  •  fehér  = Nem használt

2005-ben a BMP a következő írásokat és/vagy nyelveket kezeli (a megadott számok hexadecimális értékek):

  • latin alap (0000–007F)
  • latin-1 kiegészítés (0080–00FF)
  • latin A-bővítéssel (0100–017F)
  • latin B-bővítéssel (0180–024F)
  • IPA bővítések (0250–02AF)
  • fonetikus jelek (02B0–02FF)
  • kombinált diakritikus jelek (0300–036F)
  • görög és kopt (0370–03FF)
  • cirill (0400–04FF)
  • cirill kiegészítés (0500–052F)
  • örmény (0530–058F)
  • héber (0590–05FF)
  • arab (0600–06FF)
  • szír (0700–074F)
  • arab kiegészítés (0750–077F)
  • thaana (0780–07BF)
  • n’ko (07C0–07FF)
  • szamaritán (0800–083F)
  • mandai (0840–085F)
  • Indiai írások:
  • thai (0E00–0E7F)
  • lao (0E80–0EFF)
  • tibeti (0F00–0FFF)
  • burmai (1000–109F)
  • grúz (10A0–10FF)
  • hangul jamo (1100–11FF)
  • etióp (1200–137F)
  • etióp kiegészítés (1380–139F)
  • cseroki (13A0–13FF)
  • egyszerűsített kanadai bennszülött jelek (1400–167F)
  • ogham (1680–169F)
  • rúnaírás (16A0–16FF)
  • Fülöp-szigeti írások:
    • tagalog (1700–171F)
    • hanunóo (1720–173F)
    • buhid (1740–175F)
    • tagbanwa (1760–177F)
  • khmer (1780–17FF)
  • mongol (1800–18AF)
  • limbu (1900–194F)
  • tai le (1950–197F)
  • új tai lü (1980–19DF)
  • khmer szimbólumok (19E0–19FF)
  • buginéz (1A00–1A1F)
  • lanna (1A20–1AAF)
  • szundanéz (1B80–1BBF)
  • fonetikus kiegészítések (1D00–1D7F)
  • fonetikus bővítések kiegészítései (1D80–1DBF)
  • kombinált diakritikus jelek kiegészítései (1DC0–1DFF)
  • latin bővítések kiegészítései (1E00–1EFF)
  • bővített görög(1F00–1FFF)
  • szimbólumok:
    • általános elválasztó jelek (2000–206F)
    • alsó- és felsőindexek (2070–209F)
    • pénzjelek (20A0–20CF)
    • kombinált diakritikus jelek szimbólumokhoz (20D0–20FF)
    • betűszerű szimbólumok (2100–214F)
    • szám formátumok (2150–218F)
    • nyilak (2190–21FF)
    • matematikai műveleti jelek (2200–22FF)
    • vegyes technikai jelek (2300–23FF)
    • Irányító képek – Control Pictures (2400–243F)
    • OCR karakterek (2440–245F)
    • Enclosed Alphanumerics (2460–24FF)
    • rajz dobozok (2500–257F)
    • blokk szimbólumok(2580–259F)
    • geometrikus alakzatok (25A0–25FF)
    • vegyes szimbólumok (2600–26FF)
    • Dingbats (2700–27BF)
    • vegyes matematikai szimbólumok-A (27C0–27EF)
    • nyilak-A kiegészítés (27F0–27FF)
    • Braille jelek (2800–28FF)
    • nyilak-B kiegészítés (2900–297F)
    • vegyes matematikai szimbólumok-B (2980–29FF)
    • kiegészítő matematikai műveleti jelek (2A00–2AFF)
    • vegyes szimbólumok és nyilak (2B00–2BFF)
  • glagolita (2C00–2C5F)
  • Latin C-bővítéssel (2C60–2C7F)
  • kopt (2C80–2CFF)
  • grúz kiegészítések(2D00–2D2F)
  • tifinagh (2D30–2D7F)
  • bővített etióp (2D80–2DDF)
  • elválasztó jelek kiegészítés (2E00–2E7F)
  • CJK gyökök kiegészítése (2E80–2EFF)
  • kangxi gyökök (2F00–2FDF)
  • ideografikus leíró karakterek(2FF0–2FFF)
  • CJK szimbólumok és elválasztók (3000–303F)
  • hiragana (3040–309F)
  • katakana (30A0–30FF)
  • kínai nyelv (3100–312F)
  • hangul Compatibility Jamo (3130–318F)
  • kanbun (3190–319F)
  • bopomofo bővítés (31A0–31BF)
  • CJK ecsetvonások (31C0–31EF)
  • katakana fonetikus bővítések (31F0–31FF)
  • Enclosed CJK Letters and Months (3200–32FF)
  • CJK kompatibilis (3300–33FF)
  • CJK egyszerűsített szókép bővítés A (3400–4DBF)
  • Yijing hexagram szimbólumok (4DC0–4DFF)
  • CJK egyszerűsített szóképek (4E00–9FFF)
  • ji jelek (A000–A48F)
  • ji gyökök (A490–A4CF)
  • hang módosító betűk (A700–A71F)
  • Latin D-bővítéssel (A720–A7FF)
  • Syloti Nagri (A800–A82F)
  • Hangul jelek (AC00–D7AF)
  • magas pótlók (D800–DB7F)
  • magas sajátnál használt pótlók (DB80–DBFF)
  • alacsony pótlók (DC00–DFFF)
  • saját célra fenntartott (E000–F8FF)
  • CJK komtibilis szóképek (F900–FAFF)
  • alfabetikus megjelenítési formák (FB00–FB4F)
  • arab prezentációs formák-A (FB50–FDFF)
  • kijelölés változatok(FE00–FE0F)
  • függőleges formák (FE10–FE1F)
  • kombinált fél jelzők (FE20–FE2F)
  • CJK kompatibilis formák (FE30–FE4F)
  • kisebb forma változatok (FE50–FE6F)
  • arab prezentációs formák-B (FE70–FEFF)
  • félszélességű és teljes szélességű formák (FF00–FFEF)
  • speciális jelek (FFF0–FFFF)

A következő felülvizsgálatok során várhatóan számos írás fog bekerülni az Unicode rendszerbe. Néhány írás és azok javasolt elhelyezkedési tartományai a következők:

  • bali (1B00–1B7F)
  • lepcha (rong) (1C00–1C4F)
  • santali (Ol Cemet' / Ol Chiki) (2DE0–2DFF)
  • vai (A500–A61F)
  • phags-pa (A840–A87F)
  • saurashtra (AB00–AB5F)

Néhány egyéb írás, amit a BMP-be felvételre javasoltak:

  • avestan és pahlavi (0800–085F)
  • cham (18B0–18FF)
  • batak (1A20–1A5F)
  • lanna (ős tai lü) (1A80–1AEF)
  • meithei/manipuri (1C80–1CDF)
  • varang kshiti (AA00–AA3F)
  • sorang sompeng (AA40–AA6F)

Kiegészítő többnyelvű lap

Az 1. lap, a Kiegészítő többnyelvű lap' – Supplementary Multilingual Plane - (SMP) használatos számos, történelmi írás (mint például a lineáris B írás) kódolására, de ez használható a zenei és matematikai szimbólumok kezelésére is.

A 2005-ös Unicode 4.1 szerint, az 1. lap a következő írásokat tartalmazza:

  • lineáris B írás jelei (10000–1007F)
  • lineáris B-írás ideogramjai (10080–100FF)
  • égei számok (10100–1013F)
  • ősi görög számok (10140–1018F)
  • ősi olasz (10300–1032F)
  • gót (10330–1034F)
  • ugariti (10380–1039F)
  • ős perzsa (103A0–103DF)
  • deseret (10400–1044F)
  • shavian (10450–1047F)
  • osmanya (10480–104AF)
  • ciprusi jelek (10800–1083F)
  • kharoshthi (10A00–10A5F)
  • bizánci zenei jelek (1D000–1D0FF)
  • zenei jelek (1D100–1D1FF)
  • ősi görög zenei jelek és kotta jelölések (1D200–1D24F)
  • Taj Hszüan Csing szimbólumok (1D300–1D35F)
  • alfanumerikus matematikai szimbólumok (1D400–1D7FF)

A 2006-os, Unicode 5.0 változat a következő írásokkal egészült ki:

Néhány egyéb írást is javasoltak még az 1. lapra, többek között:

Saját használatú terület

A saját használatú terület – Private Use Area (PUA) egy a több olyan tartományból, amelyek saját használat céljára vannak fenntartva. Ezekhez a területekhez a Unicode semmilyen karaktereket nem rendel hozzá.

Az alap többnyelvű lap esetében ez a terület az U+E000 és az U+F8FF (57344–63743) közötti tartomány. A Tizenötödik lap (U+F0000 és U+FFFFF között), valamint a Tizenhatodik lap (U+100000 és U+10FFFF között) teljesen saját használat céljára fenntartott.

A saját használatú terület – PUA koncepciója bizonyos ázsiai nyelvek kódolási rendszereiből öröklődött. Ezek a rendszerek rendelkeztek saját célra használható területekkel, mivel a japánban a gaidzsi (ritka, a személy-nevekben előforduló karakterek) alkalmazás specifikus kezelését ilyen módon oldották meg. Hasonló a ConScript Unicode Registry megoldása, amely segíti a még nem kezelt, vagy a Unicode által visszautasított írásoknak az Unicode PUA területén való elhelyezést. A Unicode középkori iniciálé betűtípus szintén a PUA területet használja a középkori szövegekben előforduló különféle ligatúrák, előre összeállított karakterek, és szimbólumok kódolására.

A saját használatú terület kihasználásának egy jó példája az Apple Computer által használt U+F8FF terület az Apple által használt betűtípusok és a logó tárolására és megjelenítésére.

Egyéb lapok

A 2. lap, a tartalmazza a Kiegészítő szókép lap – Supplementary Idiograme Plane (SIP) területet, ami annak a hozzávetőleg 40 000 ritka kínai karakternek a kezelésére használható , amelyek legtöbbje ugyan történeti, azonban mai írásokban is előfordulnak. A 14. lap (E hexadecimálisan), a Kiegészítő lap a speciális felhasználású laphoz – Supplementary Special-purpose Plane (SSP), aktuálisan néhány támogatásra nem javasolt nyelv karaktereit, illetve különböző szempontok alapján kiválasztott karaktereket tartalmazza.

További információk