Html5-character-encodings
提供:Dev Guides
HTML5-文字エンコーディング
文字エンコーディングは、バイトを文字に変換する方法です。 HTMLドキュメントを検証または表示するには、プログラムで文字エンコードを選択する必要があります。 HTML 5の作成者には、文字エンコーディングを設定する3つの手段があります-
HTTP Content-Typeヘッダー
cgiまたは同様のプログラムを作成している場合は、HTTP _Content-Type_ヘッダーを使用して文字エンコードを設定します。
以下は簡単な例です-
print "Content-Type: text/html; charset=utf-8\r\n";
<meta>要素
HTML5ドキュメントの最初の512バイト内のエンコーディングを指定するcharset属性で<meta>要素を使用できます。
以下は簡単な例です-
<meta charset="UTF-8">
上記の構文は、<meta http-equiv = "Content-Type" content = "text/html; charset = UTF-8">の必要性を置き換えますが、その構文は引き続き許可されます。
Unicodeバイトオーダーマーク(BOM)
バイトオーダーマーク(BOM)は、データストリームの先頭にある文字コードU + FEFFで構成され、主にマークされていないプレーンテキストファイルのバイトオーダーとエンコード形式を定義する署名として使用できます。
多くのWindowsプログラム(Windows Notepadを含む)は、UTF-8として保存されたドキュメントの先頭に0xEF、0xBB、0xBFのバイトを追加します。 これは、Unicodeバイトオーダーマーク(BOM)のUTF-8エンコーディングであり、バイトオーダーとは関係ありませんが、一般にUTF-8 BOMと呼ばれます。
HTML5ドキュメントの場合、ファイルの先頭にUnicodeバイトオーダーマーク(BOM)文字を使用できます。 この文字は、使用されるエンコーディングの署名を提供します。