Html-character-encodings
HTML-文字エンコード
文字エンコーディングは、バイトを文字に変換する方法です。 HTMLドキュメントを適切に検証または表示するには、プログラムで適切な文字エンコードを選択する必要があります。
コンピューターで使用される最も一般的な文字セットまたは文字エンコードはASCII-*情報交換のためのアメリカ標準コード*であり、これはおそらくテキストを電子的にエンコードするために最も広く使用されている文字セットです。
ASCIIエンコードは、大文字と小文字のラテンアルファベット、数字0〜9、および合計で合計128文字になる追加文字のみをサポートします。 あなたはリンクの完全なセットを見ることができます:/html/html_ascii_codes [印刷可能なASCII文字]
ただし、多くの言語ではアクセント付きラテン文字またはまったく異なるアルファベットを使用しています。 ASCIIはこれらの文字に対応していません。したがって、非ASCII文字を使用する場合は、文字エンコードについて学習する必要があります。
国際標準化機構は、さまざまな国の文字に対応するために一連の文字セットを作成しました。 英語および他のほとんどの西ヨーロッパ言語のドキュメントでは、広くサポートされているエンコーディングISO-8859-1が使用されます。
以下は、世界中で使用されているキャラクターセットのリストとその説明です。
Sr.No | Character Set & Description |
---|---|
1 |
ISO-8859-1 ラテンアルファベットパート1 北米、西ヨーロッパ、ラテンアメリカ、カリブ海、カナダ、アフリカをカバー |
2 |
ISO-8859-2 ラテンアルファベットパート2 東ヨーロッパをカバー |
3 |
ISO-8859-3 ラテンアルファベットパート3 SE Europe、エスペラント、その他をカバー |
4 |
ISO-8859-4 ラテンアルファベットパート4 スカンジナビア/バルティックス(およびISO-8859-1以外のその他) |
5 |
ISO-8859-5 ラテン/キリル文字パート5 |
6 |
ISO-8859-6 ラテン/アラビア語のアルファベットパート6 |
7 |
ISO-8859-7 ラテン/ギリシャ語のアルファベットパート7 |
8 |
ISO-8859-8 ラテン/ヘブライ語のアルファベットパート8 |
9 |
ISO-8859-9 ラテン5アルファベットパート9 トルコ語の文字がアイスランド語の文字に置き換わることを除き、ISO-8859-1と同じ |
10 |
ISO-8859-10 ラテン語6ラテン語6ラップ語、北欧、およびエスキモー |
11 |
ISO-8859-15 ISO-8859-1と同じですが、さらに文字が追加されています |
12 |
ISO-2022-JP ラテン/日本語アルファベットパート1 |
13 |
ISO-2022-JP-2 ラテン/日本語アルファベットパート2 |
14 |
ISO-2022-KR ラテン/韓国語のアルファベットパート1 |
Unicodeコンソーシアムは、異なる言語のこれらの異なる互換性のない文字コードではなく、異なる言語のすべての文字を表示する方法を考案するためにセットアップされました。
したがって、複数の文字セットの文字を使用するドキュメントを作成する場合は、単一のUnicode文字エンコーディングを使用して作成できます。
したがって、Unicodeは、文字列を包含する巨大な文字セットに十分なスペースを確保するために、文字列を特別な方法で処理できるエンコーディングを指定します。 これらはUTF8、UTF-16、およびUTF-32として知られています。
Sr.No | Character Set & Description |
---|---|
1 |
UTF-8 8ビット単位、つまりバイト単位のUnicode翻訳形式。 UTF8の文字の長さは1〜4バイトであるため、UTF8の可変幅になります。 |
2 |
UTF-16 16ビット単位のUnicode変換フォーマット、つまり、不足しています。 UTF-16の可変幅を作成するために、1または2ショート長にすることができます。 |
3 |
UTF-32 32ビット単位で提供されるUnicode変換フォーマット、つまり長い形式で提供されます。 これは固定幅形式であり、長さは常に1「長い」です。 |
Unicode文字セットの最初の256文字は、ISO-8859-1の256文字に対応しています。
デフォルトでは、HTML 4プロセッサはUTF-8をサポートする必要があり、XMLプロセッサはUTF-8およびUTF-16をサポートすることになっています。したがって、すべてのXHTML準拠プロセッサもUTF-16をサポートする必要があります。