Unicode〜UCS〜UTF〜サロゲート〜

項目ごとで分けて書いているうちにタテヨコのリンクが多いので、とりあえず大項目でまとめました。蜘蛛の巣のような世界ですが、納得するまで書いて消化していきます。

Unicode

準備中
AppleIBMMicrosoft、サン、ノベル社等が中心となって、Unicode社を設立して策定に当たった、世界各国の言語に対応することを目的に作られた文字コード体系。命名には、世界標準を目指して、Universal、Uniform、Uniqueという含みがある。
従来、欧文は1バイト、日本語、中国語、韓国語などは2バイトで表されていたが、Unicodeでは一部の例外を除いて2バイトで表される。UCS-2とほぼ同じもの。

UCS

Universal multiple-octed coded Character Set
ISO/IEC10646-1(JISX0221)として定められた文字コードの総称。

UCS-2

UCS-2 Universal multi-octet Character Set 2
Unicodeの主要部分を尾簿網羅している。2バイト(16ビット)の値で定義され、世界の主要な言語のほぼ全ての文字を収録している。

UCS-4

UCS-4  Universal multi-octet Character Set 4
4バイト(32ビット)の値で定義されている。あまり普及していない。

UTF

UCS Transit Format
UCSの文字コードを他の文字コードに置き換える変換方式。

UTF-7

7ビットのASCIIコードとの変換に使用される。
Unicodeをメールで使用するために用いられる

UTF-8

8-bit UCS Transformation Format
8ビットのASCIIコードとの変換に使用される。
1文字を1〜6バイト(現状最長)の可変長の数値(バイト列)に変換する。

UTF-16

16-bit UCS Transformation Format
UCS-2で未定義の部分を使用し、より多くの文字を扱えるようにした(USC-2の文字集合の中にUCS-4を埋め込む)もの。

UTF-32

32-bit UCS Transformation Format
全てのUCS-4文字を4バイトで表現する。

UNIX

1968年にAT&T者のベル研究所で開発されたOS(オペレーティング・システム)。ネットワーク機能や安定性、セキュリティ強度も高い。マルチタスク/マルチユーザ(1台のコンピュータを複数の人間が同時に使用できる)の機能をもったOS。
企業の基幹業務用のサーバにも多く採用されている。
移植性の高いC言語で書かれているので、学術機関や企業団体などで、独自の拡張を施した派生OSが多く開発されており、パソコン用に移植されたLinuxや、日本語対応のEUCもそのひとつ。

EUC

Extended UNIX Code=拡張UNIXコード=複数バイトの文字を扱う文字コード。の1985年にAT&T社が日本語UNIXシステム諮問委員会の提案に基づいて定めた。複数バイト言語 日本語(JISX0208ベース/EUC-JP、JISX0203ベース/EUC-JIS-2004)、韓国語(EUC-KR)、簡体字中国語(EUC-CN)、繁体字中国語(EUC-TW)等 の文字コードを規定している。

Linux

UNIX互換のOS。1991年に、当時フィンランドの大学院生だったLinus Torvalds氏によって開発された。フリーウェアとして公開されており、全世界の開発者により改良が重ねられている。改変・再配布は自由だが、GPLというライセンス体系に基づいて無償で公開しなければならない。
特徴は、他のOSに比べると、性能の低いコンピュータでも容易に動作すること、セキュリティ・ネットワーク機能に優れ安定している。

区点コード

JISが制定した全角文字向けの文字コード
準備中

エスケープシーケンス

escape sequence
準備中

サロゲートペア

Surrogate Pair
規則の名前。
サロゲートの本来の意味は代理。例)代理母=Surrogate mother。
UTF-16(16ビット)では、2の16乗=65,536文字を扱える。Unicodeの開発時は、その文字数で世界各国の言語をカバーできると考えられていたが、一番かさばる漢字使用国以外にも、欧文のアクセントやウムラウトが付いたような文字の追加要請なども相次ぎ、65536文字では要請全部を取り込めない状況となった。そのため、Unicode(社)が窮余の策で、それ以上の文字数を扱うためにサロゲートペアという規則を定義した。
一文字2バイトのUnicode規則だが、サロゲートペアは4バイトを使用するため、文字数をバイトで制御していたような固定長を含むプログラムの動作などにも影響がある。
推敲中。

CJK統合漢字

中国・日本・韓国等。頭文字でCJKといい、東アジアの主な言語の総称にも用いられる。Unicode制定時に、かさばるこれらのいわゆる漢字類を、字体の似ているものをまるめて統合して実装してしまった。
追加予定

CJK互換漢字

準備中