Unicodeとは？EUCとの違いを文字コードで整理【SG試験】

まず結論

Unicodeは、世界中の多くの文字を共通の文字集合として扱うための文字コード体系です。

SG試験では、UnicodeとEUC、ASCII、シフトJISなどの文字コードを混同させる問題として出ることがあります。

特に大事なのは、次の切り分けです。

Unicode：世界中の文字を共通の体系で扱う
EUC：UNIX系で使われた日本語などの文字コード
ASCII：英数字中心の基本的な文字コード
シフトJIS：日本語環境でよく使われた文字コード

選択肢では、「多国籍文字」「日本語や中国語などを共通に扱う」といった表現があれば、Unicodeを疑います。

直感的な説明

文字コードは、コンピュータの中で文字を扱うための「文字と番号の対応表」のようなものです。

たとえば、人間には「あ」という文字が見えますが、コンピュータはそのまま文字を理解しているわけではありません。

内部では、

「A」はこの番号
「あ」はこの番号
「漢」はこの番号

というように、文字に番号を割り当てて管理しています。

Unicodeは、この対応表を国や言語ごとにバラバラにするのではなく、できるだけ共通化しようとする考え方です。

そのため、英語だけでなく、日本語、中国語、韓国語、記号、絵文字なども同じ体系で扱えるようになります。

SG試験では、細かいバイト数を暗記するよりも、「世界中の文字を共通に扱うならUnicode」と判断できることが大切です。

定義・仕組み

Unicodeは、世界中の文字に一意の番号を割り当て、異なる言語や環境でも文字を共通して扱えるようにするための標準です。

Unicode Consortium の公式サイトでも、Unicodeは世界中の文字や記号をデジタル環境で扱うための標準として説明されています。詳しく確認したい場合は、Unicode Consortium の公式情報を参照できます。

ここで注意したいのは、Unicodeという言葉が、単に「1文字を何バイトで表すか」だけを意味するわけではない点です。

Unicodeは、まず文字に番号を割り当てる考え方です。その上で、実際にデータとして保存・通信するときには、UTF-8やUTF-16などの符号化方式が使われます。

初心者向けには、次のように整理すると十分です。

用語	試験での見方
Unicode	世界中の文字を共通に扱うための文字コード体系
UTF-8	Unicodeを実際に保存・通信するときによく使う方式
ASCII	英数字や記号を中心に扱う基本的な文字コード
シフトJIS	日本語環境で使われてきた文字コード
EUC	UNIX系で使われた日本語などの文字コード

SG試験では、Unicodeの詳細仕様よりも、他の文字コードとの役割の違いが問われやすいです。

どんな場面で使う？

Unicodeは、複数の言語を扱うシステムや、文字化けを防ぎたい場面で重要になります。

たとえば、次のような場面です。

日本語と英語を同じシステムで扱う
海外ユーザーも使うWebサービスを作る
データベースに多言語の文字を保存する
メールやファイル名で文字化けを避けたい
絵文字や記号を正しく扱いたい

実務では、文字コードがそろっていないと、画面表示やCSVファイル、メール本文などで文字化けが起きることがあります。

そのため、情報システムの運用では、どの文字コードで保存・送信・表示するかを合わせることが大切です。

SG試験では、文字化けそのものの直し方よりも、文字コードの違いが文字化けの原因になるという理解が問われることがあります。

よくある誤解・混同

UnicodeとEUCの違い

UnicodeとEUCは、どちらも日本語などを扱えるため混同しやすいです。

ただし、試験では次のように切り分けると判断しやすくなります。

用語	判断ポイント
Unicode	世界中の文字を共通の体系で扱う
EUC	拡張UNIXコードとも呼ばれ、UNIX系で使われた文字コード

選択肢に「拡張UNIXコード」とあれば、UnicodeではなくEUCです。

一方で、選択肢に「多国籍文字」「日本語や中国語などを同一コードに割り当てる」「世界中の文字」とあれば、Unicodeを選びやすくなります。

UnicodeとASCIIの違い

ASCIIは、英数字や基本的な記号を扱う文字コードです。

SG試験では、「7ビット」「英数字」「米国標準」という表現が出てきたらASCIIを疑います。

Unicodeは、ASCIIより広い範囲の文字を扱うための考え方です。

UnicodeとシフトJISの違い

シフトJISは、日本語環境でよく使われた文字コードです。

SG試験では、「JIS」「カタカナ」「全角文字」「日本語環境」といった表現が出ると、シフトJISの説明である可能性があります。

Unicodeは、日本語だけでなく、世界中の文字を共通に扱う点が違います。

RLO（Right-to-Left Override）との関係

RLO（Right-to-Left Override）は、Unicodeで定義されている制御文字の一つで、文字列の表示方向を右から左に変えるために使われます。

本来は右から左へ読む言語などの表示に関係する仕組みですが、攻撃ではファイル名の見え方を変える目的で悪用されることがあります。

たとえば、実際には実行ファイルであるにもかかわらず、RLOによって拡張子の表示順を変え、PDFファイルや画像ファイルのように見せかける手口があります。

SG試験では、次の表現が出たらRLOを疑います。

文字の表示順を変える
Unicodeの制御文字
ファイル名の拡張子を偽装する
実行ファイルを文書ファイルのように見せる

詳しくは、RLOとは？文字の表示順を悪用した拡張子偽装の手口で整理しています。

単なる文字コードの違いではなく、表示のされ方を悪用して利用者を誤認させる攻撃として押さえましょう。

UCS-2とUnicodeの関係

UCS-2は、Unicodeと関係する文字コードの説明として出題されることがあります。

SG試験では、UCS-2について細かい仕様を深掘りするよりも、次のように押さえると判断しやすいです。

用語	試験での見方
Unicode	世界中の文字を共通の体系で扱う考え方
UCS-2	Unicode系の文字を、1文字2バイトで表す方式として問われやすい
UTF-8	Unicodeを保存・通信するときによく使われる可変長の表現方式
EUC	拡張UNIXコード。UNIX系、日本語文字コードの文脈で出やすい
シフトJIS	JIS、日本語環境、英数字1バイト・漢字2バイトの文脈で出やすい

選択肢でUCS-2が明示され、固定長2バイトや多言語文字集合との関係が問われている場合は、Unicode系の説明として判断します。

ただし、Unicode全体を「必ず2バイト」と覚えるのは危険です。UnicodeにはUTF-8やUTF-16など複数の表現方式があるため、問題文が「UCS-2」を指定しているかどうかを確認しましょう。

「2バイト文字コード」とだけ覚えるのは危険

Unicodeを「1文字を必ず2バイトで表す」とだけ覚えると、選択肢で迷いやすくなります。

UnicodeにはUTF-8やUTF-16など複数の表現方法があります。

SG試験では、バイト数の細部よりも、何のための文字コード体系かを優先して判断します。

まとめ（試験直前用）

Unicodeは、世界中の文字を共通の体系で扱うための文字コード
EUCは、拡張UNIXコードとも呼ばれる文字コード
ASCIIは、英数字中心の基本的な文字コード
シフトJISは、日本語環境で使われてきた文字コード
UCS-2は、Unicode系の文字を1文字2バイトで表す方式として問われやすい
迷ったら、多言語文字集合ならUnicode、拡張UNIXコードならEUC、UCS-2が明示されればUnicode系の2バイト表現として切り分ける

🔗 関連記事

🏠 情報セキュリティマネジメントトップに戻る