Unicode〜UCS〜UTF〜サロゲート〜
項目ごとで分けて書いているうちにタテヨコのリンクが多いので、とりあえず大項目でまとめました。蜘蛛の巣のような世界ですが、納得するまで書いて消化していきます。
Unicode
準備中
Apple、IBM、Microsoft、サン、ノベル社等が中心となって、Unicode社を設立して策定に当たった、世界各国の言語に対応することを目的に作られた文字コード体系。命名には、世界標準を目指して、Universal、Uniform、Uniqueという含みがある。
従来、欧文は1バイト、日本語、中国語、韓国語などは2バイトで表されていたが、Unicodeでは一部の例外を除いて2バイトで表される。UCS-2とほぼ同じもの。
UCS
Universal multiple-octed coded Character Set
ISO/IEC10646-1(JISX0221)として定められた文字コードの総称。
UCS-2
UCS-2 Universal multi-octet Character Set 2
Unicodeの主要部分を尾簿網羅している。2バイト(16ビット)の値で定義され、世界の主要な言語のほぼ全ての文字を収録している。
UCS-4
UCS-4 Universal multi-octet Character Set 4
4バイト(32ビット)の値で定義されている。あまり普及していない。
UTF
UCS Transit Format
UCSの文字コードを他の文字コードに置き換える変換方式。
UTF-8
8-bit UCS Transformation Format
8ビットのASCIIコードとの変換に使用される。
1文字を1〜6バイト(現状最長)の可変長の数値(バイト列)に変換する。
UTF-16
16-bit UCS Transformation Format
UCS-2で未定義の部分を使用し、より多くの文字を扱えるようにした(USC-2の文字集合の中にUCS-4を埋め込む)もの。
UTF-32
32-bit UCS Transformation Format
全てのUCS-4文字を4バイトで表現する。
UNIX
1968年にAT&T者のベル研究所で開発されたOS(オペレーティング・システム)。ネットワーク機能や安定性、セキュリティ強度も高い。マルチタスク/マルチユーザ(1台のコンピュータを複数の人間が同時に使用できる)の機能をもったOS。
企業の基幹業務用のサーバにも多く採用されている。
移植性の高いC言語で書かれているので、学術機関や企業団体などで、独自の拡張を施した派生OSが多く開発されており、パソコン用に移植されたLinuxや、日本語対応のEUCもそのひとつ。
区点コード
JISが制定した全角文字向けの文字コード。
準備中
エスケープシーケンス
escape sequence
準備中
サロゲートペア
Surrogate Pair
規則の名前。
サロゲートの本来の意味は代理。例)代理母=Surrogate mother。
UTF-16(16ビット)では、2の16乗=65,536文字を扱える。Unicodeの開発時は、その文字数で世界各国の言語をカバーできると考えられていたが、一番かさばる漢字使用国以外にも、欧文のアクセントやウムラウトが付いたような文字の追加要請なども相次ぎ、65536文字では要請全部を取り込めない状況となった。そのため、Unicode(社)が窮余の策で、それ以上の文字数を扱うためにサロゲートペアという規則を定義した。
一文字2バイトのUnicode規則だが、サロゲートペアは4バイトを使用するため、文字数をバイトで制御していたような固定長を含むプログラムの動作などにも影響がある。
推敲中。
CJK統合漢字
中国・日本・韓国等。頭文字でCJKといい、東アジアの主な言語の総称にも用いられる。Unicode制定時に、かさばるこれらのいわゆる漢字類を、字体の似ているものをまるめて統合して実装してしまった。
追加予定
CJK互換漢字
準備中