Юникод

(Unicode бетінен бағытталды)

Юникод есептеу техникасында кодтарға қолданылатын техникалық және индустрия стандарты, онымен қоса жазу жүйелері мен тексттерді компьютерлік құралдарда бейнелеудің стандарты.[1]

Юникод логотипі.

Қыркүйек айы 2012 жылы Юникодтың ең соңғы нұсқасы Юникод 6.2 шықты.

Юникодты қолданудың себептері көп: мысалы ол заманауи операциялық жүйелерде, XML, Java (бағдарламалау тілі), Microsoft .NET Framework және басқа технологияларда стандарт ретінде жұмысқа қолдану ыңғайлығын көрсетті.

Юникодты құру және дамытудың алғы шарттары

өңдеу

1980 жылдардың аяғында 8-биттік кодтау стандартқа айналды, олардың саны көп болды, ал жаңалары үнемі пайда болды. Бұл қолдау көрсетілетін тілдер диапазонының кеңеюімен де, бір-бірімен ішінара үйлесімді кодтауларды жасау ниетімен де түсіндірілді (типтік мысал ретінде орыс тілін қолдануға байланысты баламалы кодтаудың пайда болуы). CP437 кодтау үшін жасалған батыс бағдарламалары). Бұл бірнеше проблемаларды тудырды:

  1. Қате декодтау мәселесі;
  2. Шектеулі таңбалар жиыны мәселесі;
  3. Бір кодтауды екіншісіне түрлендіру мәселесі;
  4. Қаріпті қайталау мәселесі.

Қате декодтау мәселесі құжатта құжатта арналмаған шет тіліндегі таңбалардың пайда болуына немесе орыс тілді қолданушылар «кракозябрлар» лақап атына ие арналмаған псевдографикалық белгілердің пайда болуына себеп болды. Мәселе негізінен файл немесе ағын үшін кодтауды көрсетуге арналған стандартталған пішіннің болмауынан туындады. Мәселе кодтауды анықтауға арналған стандартты дәйекті енгізу арқылы немесе барлық тілдерге ортақ кодтауды енгізу арқылы шешілуі мүмкін.

Шектеулі символдар жиыны мәселесі. Мәселені құжаттағы қаріптерді ауыстыру немесе «кең» кодтауды енгізу арқылы шешуге болады. Қаріптерді ауыстыру мәтіндік процессорларда бұрыннан қолданылған және стандартты емес кодтауы бар қаріптер жиі қолданылған. «dingbat қаріптері». Нәтижесінде құжатты басқа жүйеге көшіру әрекеті кезінде стандартты емес таңбалардың барлығы «ессіз» таңбаларға айналды.

Бір кодтауды екіншісіне түрлендіру мәселесі. Мәселе кодтаудың әрбір жұбы үшін түрлендіру кестелерін құрастыру арқылы немесе барлық кодтаулардың барлық таңбаларын қоса алғанда, үшінші кодтауға аралық түрлендіруді пайдалану арқылы шешілуі мүмкін.

Қаріптерді көшіру мәселесі. Әрбір кодтау үшін кодтаулардағы таңбалар жиыны ішінара немесе толығымен сәйкес келсе де, басқа қаріп жасалды. Мәселені «үлкен» қаріптерді жасау арқылы шешуге болады, олардан кейін берілген кодтау үшін қажетті таңбалар таңдалады. Дегенмен, бұл ненің сәйкес келетінін анықтау үшін таңбалардың бірыңғай тізілімін құруды талап етті.

Бірыңғай «кең» кодтауды құру қажеттілігі танылды. Шығыс Азияда кеңінен қолданылатын айнымалы ені бар кодтауларды пайдалану тым қиын деп саналды, сондықтан бекітілген енді таңбаларды пайдалану туралы шешім қабылданды. 32 биттік таңбаларды пайдалану тым ысырап болып көрінді, сондықтан 16 биттік таңбаларды пайдалану туралы шешім қабылданды.

Тарихы

өңдеу

Юникод 1987 жылы пайда болды.

Архитектурасы

өңдеу

Лигатуралары

өңдеу

Стандартталған ішкі жиын

өңдеу
WGL-4, MES-1 and MES-2
Бағандар Кестелер Ранк(тер)
00 20–7E Латын таңбалары (00–7F)
A0–FF Латын-1 Қосымшасы (80–FF)
01 00–13, 14–15, 16–2B, 2C–2D, 2E–4D, 4E–4F, 50–7E, 7F Latin Extended-A (00–7F)
8F, 92, B7, DE-EF, FA–FF Latin Extended-B (80–FF ...)
02 18–1B, 1E–1F Latin Extended-B (... 00–4F)
59, 7C, 92 IPA Extensions (50–AF)
BB–BD, C6, C7, C9, D6, D8–DB, DC, DD, DF, EE Spacing Modifier Letters (B0–FF)
03 74–75, 7A, 7E, 84–8A, 8C, 8E–A1, A3–CE, D7, DA–E1 Greek (70–FF)
04 00, 01–0C, 0D, 0E–4F, 50, 51–5C, 5D, 5E–5F, 90–91, 92–C4, C7–C8, CB–CC, D0–EB, EE–F5, F8–F9 Кирилица (00–FF)
1E 02–03, 0A–0B, 1E–1F, 40–41, 56–57, 60–61, 6A–6B, 80–85, 9B, F2–F3 Latin Extended Additional (00–FF)
1F 00–15, 18–1D, 20–45, 48–4D, 50–57, 59, 5B, 5D, 5F–7D, 80–B4, B6–C4, C6–D3, D6–DB, DD–EF, F2–F4, F6–FE Greek Extended (00–FF)
20 13–14, 15, 17, 18–19, 1A–1B, 1C–1D, 1E, 20–22, 26, 30, 32–33, 39–3A, 3C, 3E General Punctuation (00–6F)
44, 4A, 7F, 82 Superscripts and Subscripts (70–9F)
A3–A4, A7, AC, AF Currency Symbols (A0–CF)
21 05, 13, 16, 22, 26, 2E Letterlike Symbols (00–4F)
5B–5E Number Forms (50–8F)
90–93, 94–95, A8 Arrows (90–FF)
22 00, 02, 03, 06, 08–09, 0F, 11–12, 15, 19–1A, 1E–1F, 27–28, 29, 2A, 2B, 48, 59, 60–61, 64–65, 82–83, 95, 97 Mathematical Operators (00–FF)
23 02, 0A, 20–21, 29–2A Miscellaneous Technical (00–FF)
25 00, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 50–6C Box Drawing (00–7F)
80, 84, 88, 8C, 90–93 Block Elements (80–9F)
A0–A1, AA–AC, B2, BA, BC, C4, CA–CB, CF, D8–D9, E6 Geometric Shapes (A0–FF)
26 3A–3C, 40, 42, 60, 63, 65–66, 6A, 6B Miscellaneous Symbols (00–FF)
F0 (01–02) Private Use Area (00–FF ...)
FB 01–02 Alphabetic Presentation Forms (00–4F)
FF FD Specials

Қолданыстағы Юникод

өңдеу

Операциялық жүйелер

өңдеу

Электронды пошта

өңдеу

Дереккөздер

өңдеу
  1. The Unicode Standard: A Technical Introduction. Тексерілді, 16 наурыз 2010.

Сыртқы сілтемелер

өңдеу