UCS-2 では、すべての文字が 2 バイトの Unicode コードで表され、もっとも重要なバイトは 1 番目のバイトです。 例: LATIN CAPITAL LETTER A
にはコード 0x0041
があり、これは 2 バイトのシーケンス (0x00 0x41
) として格納されます。 CYRILLIC SMALL LETTER YERU
(Unicode 0x044B
) は、2 バイトシーケンス (0x04 0x4B
) として格納されます。 Unicode 文字とそのコードについては、「Unicode Consortium の web サイト」を参照してください。
ucs2
文字セットには、次の特性があります:
BMP 文字のみをサポート (補助文字はサポートされません)
固定長の 16 ビットエンコーディングを使用し、文字ごとに 2 バイトが必要です。