ยูนิโคด

ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย) [1]

The Unicode Standard, Version 5.0
อักขระยูนิโคดทั้งหมดเมื่อพิมพ์ลงกระดาษ (รวมทั้งสองแผ่น)

ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่

ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)

สมาคม Unicode

สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง Adobe, Apple, Facebook, Google, IBM, Microsoft, Netflix และ SAP SE.[2]

สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ multilingual สภาพแวดล้อม

อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ [3]

การเข้ารหัส

UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส

จุดรหัส <-> UTF-8
จุดรหัสแรกจุดรหัสท้ายไบต์ที่ 1ไบต์ที่ 2ไบต์ที่ 3ไบต์ที่ 4
U+0000U+007F0xxxxxxx
U+0080U+07FF110xxxxx10xxxxxx
U+0800U+FFFF1110xxxx10xxxxxx10xxxxxx
U+10000U+10FFFF11110xxx10xxxxxx10xxxxxx10xxxxxx
ตัวอย่างการเข้ารหัส
ตัวอักษรจุดรหัสฐานสองUTF-8 ฐานสองUTF-8 ฐานสิบหก
$U+0024010 01000010010024
¢U+00A2000 1010 001011000010 10100010C2 A2
U+09390000 1001 0011 100111100000 10100100 10111001E0 A4 B9
U+20AC0010 0000 1010 110011100010 10000010 10101100E2 82 AC
U+D55C1101 0101 0101 110011101101 10010101 10011100ED 95 9C
𐍈U+103480 0001 0000 0011 0100 100011110000 10010000 10001101 10001000F0 90 8D 88

รุ่นยูนิโคด

รุ่นวันที่หนังสือความสอดคล้องกับ
ชุดอักขระสากล
(ISO/IEC 10646)
ชุดอักษรอักขระ
จำนวนการเพิ่มเติมที่สำคัญ
1.0.0ตุลาคม พ.ศ. 2534ISBN 0-201-56788-1 (Vol.1)247,161เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต [4]
1.0.1มิถุนายน พ.ศ. 2535ISBN 0-201-60845-6 (Vol.2)2528,359เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [5]
1.1มิถุนายน พ.ศ. 2536ISO/IEC 10646-1:19932434,233เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [6]
2.0กรกฎาคม พ.ศ. 2539ISBN 0-201-48345-9ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 72538,950พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [7]
2.1พฤษภาคม พ.ศ. 2541ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 182538,952เครื่องหมายยูโรถูกเพิ่มเข้ามา [8]
3.0กันยายน พ.ศ. 2542ISBN 0-201-61633-5ISO/IEC 10646-1:20003849,259เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [9]
3.1มีนาคม พ.ศ. 2544ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

4194,205เดเซเรท, โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [10]
3.2มีนาคม พ.ศ. 2545ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1

ISO/IEC 10646-2:2001

4595,221เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา [11]
4.0เมษายน พ.ศ. 2546ISBN 0-321-18578-1ISO/IEC 10646:20035296,447ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [12]
4.1มีนาคม พ.ศ. 2548ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 15997,720ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [13]
5.0กรกฎาคม พ.ศ. 2549ISBN 0-321-48091-0ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 36499,089บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา [14]
5.1เมษายน พ.ศ. 2551ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 475100,713คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.[15]
5.2ตุลาคม พ.ศ. 2552ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 690107,361อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท [16]
6.0ตุลาคม พ.ศ. 2553ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย93109,449บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ[17]
7.0มิถุนายน 2557ISBN 978-1-936213-09-2ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล123112,956

(2,834 added)

Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.
8.0มิถุนายน 2558ISBN 978-1-936213-10-8ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี อักษรภาพรวมจีนญี่ปุ่นเกาหลี9 ตัว และอีโมจิ 41 ตัว129120,672

(7,716 added)

Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers.
9.0มิถุนายน 2559ISBN 978-1-936213-13-9ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว135128,172

(7,500 added)

Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji.
10.0มิถุนายน 2560ISBN 978-1-936213-16-0ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters139136,690

(8,518 added)

Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol.
11.0มิถุนายน 2561ISBN 978-1-936213-19-1ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters.146137,374

(684 added)

Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji.
12.0มีนาคม 2562ISBN 978-1-936213-22-1ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters.150137,928

(554 added)

Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji.
12.1พฤษภาคม 2562ISBN 978-1-936213-25-2150137,929

(1 added)

เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะแบบมัดเป็นสี่เหลี่ยมจัตุรัส
13.0มีนาคม 2563ISBN 978-1-936213-26-9ISO/IEC 10646:2020154143,859

(5,930 added)

Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji.
14.0กันยายน 2564ISBN 978-1-936213-29-0159144,697

(838 added)

Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji.
แผนผังBasic Multilingual Plane หนึ่งกล่องแทน 256 ช่อง

บล็อกต่าง ๆ

แผ่นระยะชื่อจำนวนช่องกำหนดแล้วชุดอักษร
0 BMPU+0000..U+007FBasic Latin128128ละติน (52 ตัว), ทั่วไป (76 ตัว)
0 BMPU+0080..U+00FFLatin-1 Supplement128128ละติน (64 ตัว), ทั่วไป (64 ตัว)
0 BMPU+0100..U+017FLatin Extended-A128128ละติน
0 BMPU+0180..U+024FLatin Extended-B208208ละติน
0 BMPU+0250..U+02AFIPA Extensions9696ละติน
0 BMPU+02B0..U+02FFSpacing Modifier Letters8080ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว)
0 BMPU+0300..U+036FCombining Diacritical Marks112112ใช้กับตัวอื่น
0 BMPU+0370..U+03FFGreek and Coptic144135คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว)
0 BMPU+0400..U+04FFCyrillic256256ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว)
0 BMPU+0500..U+052FCyrillic Supplement4848ซีริลลิก
0 BMPU+0530..U+058FArmenian9691อาร์เมเนียน
0 BMPU+0590..U+05FFHebrew11288ฮีบรู
0 BMPU+0600..U+06FFArabic256256อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว)
0 BMPU+0700..U+074FSyriac8077ซีเรีย
0 BMPU+0750..U+077FArabic Supplement4848อาหรับ
0 BMPU+0780..U+07BFThaana6450อักษรทานะ
0 BMPU+07C0..U+07FFNKo6462อักษรอึนโก
0 BMPU+0800..U+083FSamaritan6461Samaritan
0 BMPU+0840..U+085FMandaic3229Mandaic
0 BMPU+0860..U+086FSyriac Supplement1611ซีเรีย
0 BMPU+0870..U+089FArabic Extended-B4841อาหรับ
0 BMPU+08A0..U+08FFArabic Extended-A9696อาหรับ (95 ตัว), ทั่วไป (1 ตัว)
0 BMPU+0900..U+097FDevanagari128128เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว)
0 BMPU+0980..U+09FFBengali12896เบงกอล
0 BMPU+0A00..U+0A7FGurmukhi12880อักษรคุรมุขี
0 BMPU+0A80..U+0AFFGujarati12891คุชราต
0 BMPU+0B00..U+0B7FOriya12891โอริยา
0 BMPU+0B80..U+0BFFTamil12872ทมิฬ
0 BMPU+0C00..U+0C7FTelugu128100เตลูกู
0 BMPU+0C80..U+0CFFKannada12890กันนาดา
0 BMPU+0D00..U+0D7FMalayalam128118มลยาฬัม
0 BMPU+0D80..U+0DFFSinhala12891สิงหล
0 BMPU+0E00..U+0E7FThai12887ไทย(86 ตัว), ทั่วไป (1 ตัว)
0 BMPU+0E80..U+0EFFLao12882ลาว
0 BMPU+0F00..U+0FFFTibetan256211ทิเบต (207 ตัว), ทั่วไป (4 ตัว)
0 BMPU+1000..U+109FMyanmar160160พม่า
0 BMPU+10A0..U+10FFGeorgian9688จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว)
0 BMPU+1100..U+11FFHangul Jamo256256ฮันกึล
0 BMPU+1200..U+137FEthiopic384358เอธิโอเปีย
0 BMPU+1380..U+139FEthiopic Supplement3226เอธิโอเปีย
0 BMPU+13A0..U+13FFCherokee9692เชโรกี
0 BMPU+1400..U+167FUnified Canadian Aboriginal Syllabics640640แคนาดาพื้นเมือง
0 BMPU+1680..U+169FOgham3229Ogham
0 BMPU+16A0..U+16FFRunic9689รูน (86 ตัว), ทั่วไป (3 ตัว)
0 BMPU+1700..U+171FTagalog3223ตากาล็อก
0 BMPU+1720..U+173FHanunoo3223Hanunoo (21 characters), Common (2 characters)
0 BMPU+1740..U+175FBuhid3220Buhid
0 BMPU+1760..U+177FTagbanwa3218Tagbanwa
0 BMPU+1780..U+17FFKhmer128114เขมร
0 BMPU+1800..U+18AFMongolian176158มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว)
0 BMPU+18B0..U+18FFUnified Canadian Aboriginal Syllabics Extended8070แคนาดาพื้นเมือง
0 BMPU+1900..U+194FLimbu8068Limbu
0 BMPU+1950..U+197FTai Le4835อักษรไทใต้คง
0 BMPU+1980..U+19DFNew Tai Lue9683อักษรไทลื้อ
0 BMPU+19E0..U+19FFKhmer Symbols3232เขมร
0 BMPU+1A00..U+1A1FBuginese3230Buginese
0 BMPU+1A20..U+1AAFTai Tham144127อักษรล้านนา
0 BMPU+1AB0..U+1AFFCombining Diacritical Marks Extended8031ผสม
0 BMPU+1B00..U+1B7FBalinese128124Balinese
0 BMPU+1B80..U+1BBFSundanese6464Sundanese
0 BMPU+1BC0..U+1BFFBatak6456Batak
0 BMPU+1C00..U+1C4FLepcha8074Lepcha
0 BMPU+1C50..U+1C7FOl Chiki4848Ol Chiki
0 BMPU+1C80..U+1C8FCyrillic Extended-C169ซีริลลิก
0 BMPU+1C90..U+1CBFGeorgian Extended4846จอร์เจีย
0 BMPU+1CC0..U+1CCFSundanese Supplement168Sundanese
0 BMPU+1CD0..U+1CFFVedic Extensions4843ทั่วไป (16 ตัว), ผสม(27 ตัว)
0 BMPU+1D00..U+1D7FPhonetic Extensions128128ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว)
0 BMPU+1D80..U+1DBFPhonetic Extensions Supplement6464กรีก (1 ตัว), ละติน (63 ตัว)
0 BMPU+1DC0..U+1DFFCombining Diacritical Marks Supplement6464ผสม
0 BMPU+1E00..U+1EFFLatin Extended Additional256256ละติน
0 BMPU+1F00..U+1FFFGreek Extended256233กรีก
0 BMPU+2000..U+206FGeneral Punctuation112111ทั่วไป (109 ตัว), ผสม (2 ตัว)
0 BMPU+2070..U+209FSuperscripts and Subscripts4842ละติน (15 ตัว), ทั่วไป (27 ตัว)
0 BMPU+20A0..U+20CFCurrency Symbols4833ทั่วไป
0 BMPU+20D0..U+20FFCombining Diacritical Marks for Symbols4833ใช้กับตัวอื่น
0 BMPU+2100..U+214FLetterlike Symbols8080กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว)
0 BMPU+2150..U+218FNumber Forms6460ละติน (41 ตัว), ทั่วไป (19 ตัว)
0 BMPU+2190..U+21FFArrows112112ทั่วไป
0 BMPU+2200..U+22FFMathematical Operators256256ทั่วไป
0 BMPU+2300..U+23FFMiscellaneous Technical256256ทั่วไป
0 BMPU+2400..U+243FControl Pictures6439ทั่วไป
0 BMPU+2440..U+245FOptical Character Recognition3211ทั่วไป
0 BMPU+2460..U+24FFEnclosed Alphanumerics160160ทั่วไป
0 BMPU+2500..U+257FBox Drawing128128ทั่วไป
0 BMPU+2580..U+259FBlock Elements3232ทั่วไป
0 BMPU+25A0..U+25FFGeometric Shapes9696ทั่วไป
0 BMPU+2600..U+26FFMiscellaneous Symbols256256ทั่วไป
0 BMPU+2700..U+27BFDingbats192192ทั่วไป
0 BMPU+27C0..U+27EFMiscellaneous Mathematical Symbols-A4848ทั่วไป
0 BMPU+27F0..U+27FFSupplemental Arrows-A1616ทั่วไป
0 BMPU+2800..U+28FFBraille Patterns256256อักษรเบรลล์
0 BMPU+2900..U+297FSupplemental Arrows-B128128ทั่วไป
0 BMPU+2980..U+29FFMiscellaneous Mathematical Symbols-B128128ทั่วไป
0 BMPU+2A00..U+2AFFSupplemental Mathematical Operators256256ทั่วไป
0 BMPU+2B00..U+2BFFMiscellaneous Symbols and Arrows256253ทั่วไป
0 BMPU+2C00..U+2C5FGlagolitic9696Glagolitic
0 BMPU+2C60..U+2C7FLatin Extended-C3232ละติน
0 BMPU+2C80..U+2CFFCoptic128123คอปติก
0 BMPU+2D00..U+2D2FGeorgian Supplement4840จอร์เจีย
0 BMPU+2D30..U+2D7FTifinagh8059ทิฟินาค
0 BMPU+2D80..U+2DDFEthiopic Extended9679เอธิโอเปีย
0 BMPU+2DE0..U+2DFFCyrillic Extended-A3232ซีริลลิก
0 BMPU+2E00..U+2E7FSupplemental Punctuation12894ทั่วไป
0 BMPU+2E80..U+2EFFCJK Radicals Supplement128115อักษรจีน
0 BMPU+2F00..U+2FDFKangxi Radicals224214อักษรจีน
0 BMPU+2FF0..U+2FFFIdeographic Description Characters1612ทั่วไป
0 BMPU+3000..U+303FCJK Symbols and Punctuation6464จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว)
0 BMPU+3040..U+309FHiragana9693ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว)
0 BMPU+30A0..U+30FFKatakana9696คาตากานะ (93 ตัว), ทั่วไป (3 ตัว)
0 BMPU+3100..U+312FBopomofo4843ปอพอมอฟอ
0 BMPU+3130..U+318FHangul Compatibility Jamo9694ฮันกึล
0 BMPU+3190..U+319FKanbun1616ทั่วไป
0 BMPU+31A0..U+31BFBopomofo Extended3232ปอพอมอฟอ
0 BMPU+31C0..U+31EFCJK Strokes4836ทั่วไป
0 BMPU+31F0..U+31FFKatakana Phonetic Extensions1616คาตากานะ
0 BMPU+3200..U+32FFEnclosed CJK Letters and Months256255ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว)
0 BMPU+3300..U+33FFCJK Compatibility256256คาตากานะ (88 ตัว), ทั่วไป (168 ตัว)
0 BMPU+3400..U+4DBFCJK Unified Ideographs Extension A6,5926,592จีน
0 BMPU+4DC0..U+4DFFYijing Hexagram Symbols6464ทั่วไป
0 BMPU+4E00..U+9FFFCJK Unified Ideographs20,99220,992อักษรจีน
0 BMPU+A000..U+A48FYi Syllables1,1681,165Yi
0 BMPU+A490..U+A4CFYi Radicals6455Yi
0 BMPU+A4D0..U+A4FFLisu4848Lisu
0 BMPU+A500..U+A63FVai320300Vai
0 BMPU+A640..U+A69FCyrillic Extended-B9696ซีริลลิก
0 BMPU+A6A0..U+A6FFBamum9688Bamum
0 BMPU+A700..U+A71FModifier Tone Letters3232ทั่วไป
0 BMPU+A720..U+A7FFLatin Extended-D224193Latin (188 characters), Common (5 characters)
0 BMPU+A800..U+A82FSyloti Nagri4845Syloti Nagri
0 BMPU+A830..U+A83FCommon Indic Number Forms1610ทั่วไป
0 BMPU+A840..U+A87FPhags-pa6456อักษรพักส์-ปา
0 BMPU+A880..U+A8DFSaurashtra9682Saurashtra
0 BMPU+A8E0..U+A8FFDevanagari Extended3232เทวนาครี
0 BMPU+A900..U+A92FKayah Li4848Kayah Li (47 characters), Common (1 character)
0 BMPU+A930..U+A95FRejang4837Rejang
0 BMPU+A960..U+A97FHangul Jamo Extended-A3229ฮันกึล
0 BMPU+A980..U+A9DFJavanese9691ชวา (90 ตัว), ทั่วไป (1 ตัว)
0 BMPU+A9E0..U+A9FFMyanmar Extended-B3231พม่า
0 BMPU+AA00..U+AA5FCham9683จาม
0 BMPU+AA60..U+AA7FMyanmar Extended-A3232พม่า
0 BMPU+AA80..U+AADFTai Viet9672ไทเวียด
0 BMPU+AAE0..U+AAFFMeetei Mayek Extensions3223Meetei Mayek
0 BMPU+AB00..U+AB2FEthiopic Extended-A4832Ethiopic
0 BMPU+AB30..U+AB6FLatin Extended-E6460Latin (56 characters), Greek (1 character), Common (3 characters)
0 BMPU+AB70..U+ABBFCherokee Supplement8080Cherokee
0 BMPU+ABC0..U+ABFFMeetei Mayek6456Meetei Mayek
0 BMPU+AC00..U+D7AFHangul Syllables11,18411,172Hangul
0 BMPU+D7B0..U+D7FFHangul Jamo Extended-B8072Hangul
0 BMPU+D800..U+DB7FHigh Surrogates8960Unknown
0 BMPU+DB80..U+DBFFHigh Private Use Surrogates1280Unknown
0 BMPU+DC00..U+DFFFLow Surrogates1,0240Unknown
0 BMPU+E000..U+F8FFPrivate Use Area6,4006,400Unknown
0 BMPU+F900..U+FAFFCJK Compatibility Ideographs512472Han
0 BMPU+FB00..U+FB4FAlphabetic Presentation Forms8058Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
0 BMPU+FB50..U+FDFFArabic Presentation Forms-A688631อาหรับ (629 ตัว), ทั่วไป (2 ตัว)
0 BMPU+FE00..U+FE0FVariation Selectors1616ผสม
0 BMPU+FE10..U+FE1FVertical Forms1610ทั่วไป
0 BMPU+FE20..U+FE2FCombining Half Marks1616ซีริลลิก (2 ตัว), ผสม (14 ตัว)
0 BMPU+FE30..U+FE4FCJK Compatibility Forms3232ทั่วไป
0 BMPU+FE50..U+FE6FSmall Form Variants3226ทั่วไป
0 BMPU+FE70..U+FEFFArabic Presentation Forms-B144141Arabic (140 characters), Common (1 character)
0 BMPU+FF00..U+FFEFHalfwidth and Fullwidth Forms240225ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว)
0 BMPU+FFF0..U+FFFFSpecials165ทั่วไป

ข้อจำกัดและปัญหา

มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน

ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา

การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น

อ้างอิง

แหล่งข้อมูลอื่น

🔥 Top keywords: วชิรวิชญ์ ไพศาลกุลวงศ์หน้าหลักองค์การกระจายเสียงและแพร่ภาพสาธารณะแห่งประเทศไทยยูฟ่าแชมเปียนส์ลีกชนกันต์ อาพรสุทธินันธ์สโมสรฟุตบอลแมนเชสเตอร์ซิตีพิเศษ:ค้นหาดวงใจเทวพรหม (ละครโทรทัศน์)กรงกรรมอสมทลิซ่า (แร็ปเปอร์)จีรนันท์ มะโนแจ่มสโมสรฟุตบอลอาร์เซนอลสโมสรฟุตบอลเรอัลมาดริดธี่หยดฟุตซอลชิงแชมป์เอเชีย 2024เฟซบุ๊กสโมสรฟุตบอลบาร์เซโลนาประเทศไทยเอเชียนคัพ รุ่นอายุไม่เกิน 23 ปี 2024วิทยุเสียงอเมริกาสโมสรฟุตบอลลิเวอร์พูลพระราชวัชรธรรมโสภณ (ศิลา สิริจนฺโท)พระบาทสมเด็จพระวชิรเกล้าเจ้าอยู่หัวรักวุ่น วัยรุ่นแสบวันไหลนริลญา กุลมงคลเพชรสโมสรฟุตบอลเชลซีสมเด็จพระกนิษฐาธิราชเจ้า กรมสมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารีหลานม่าสุภาพบุรุษจุฑาเทพ (ละครโทรทัศน์)สโมสรฟุตบอลไบเอิร์นมิวนิกกรุงเทพมหานครสโมสรฟุตบอลแมนเชสเตอร์ยูไนเต็ดคิม ซู-ฮย็อนภาวะโลกร้อนสาธุ (ละครโทรทัศน์)รายชื่ออักษรย่อของจังหวัดในประเทศไทยสโมสรฟุตบอลปารีแซ็ง-แฌร์แม็ง