mb_detect_encoding

(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)

mb_detect_encoding — 文字エンコーディングを検出する

説明

mb_detect_encoding(string $string, array|string|null $encodings = null, bool $strict = false): string|false

エンコーディングの候補の一覧から、文字列 string のもっとも可能性が高い文字エンコーディングを検出します。

追加の情報なしに、意図した文字エンコーディングを自動で検出する行為は、全く役に立ちません。これは、暗号化された文字列を鍵なしにデコードする行為に似ています。 "Content-Type" HTTP ヘッダのような、データを転送された際に付いてくる情報や、保存された文字エンコーディングに関する指示を指定することが常に望ましいです。

この関数は、全ての文字列が正しいバイト配列とは限らないマルチバイト文字列を指定するともっとも役に立ちます。入力となる文字列に誤ったバイトが含まれていた場合、そのエンコーディングは採用されず、次のものを試します。

パラメータ

string

調べる対象の文字列。

encodings

文字エンコーディングの一覧を試す順番に指定します。このリストは、文字列の配列または、カンマ区切りのリストで指定できます。

encodings が省略された場合、または null の場合、現在の detect_order ( mbstring.detect_order 設定オプションまたは mb_detect_order() で設定したもの) を使います。

strict

encodings で指定された文字エンコーディングのリストの全てに対して、不正と判定された場合の振る舞いを指定します。 strict が false の場合、もっとも近いと判定された文字エンコーディングが返されます。 strict を true にした場合、 false が返されます。

strict のデフォルト値は mbstring.strict_detection 設定オプションで指定できます。

戻り値

検出した文字エンコーディングを返します。指定したエンコーディングの全てに対して、不正と判定された場合は false を返します。

例

例1 mb_detect_encoding() の例


<?php
// 現在のdetect_orderで文字エンコーディングを検出
echo mb_detect_encoding($str);

// "auto" は mbstring.language の設定を使って展開されます
echo mb_detect_encoding($str, "auto");

// 文字エンコーディングをカンマ区切りのリストで指定することで、encodings 引数を指定
echo mb_detect_encoding($str, "JIS, eucjp-win, sjis-win");

// encodings 引数を配列で指定
$encodings = [
  "ASCII",
  "JIS",
  "EUC-JP"
];
echo mb_detect_encoding($str, $encodings);
?>

例2 strict パラメーターの効果


<?php
// 'áéóú' は ISO-8859-1 でエンコードされています
$str = "\xE1\xE9\xF3\xFA";

// この文字列は、ASCII または UTF-8 的には正しくありませんが、
// UTF-8 がもっとも近いと判定されます
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8'], false));
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8'], true));

// 正しいエンコーディングが見つかった場合、
// strice パラメータを指定しても結果は変わりません
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8', 'ISO-8859-1'], false));
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8', 'ISO-8859-1'], true));
?>

上の例の出力は以下となります。

string(5) "UTF-8"
bool(false)
string(10) "ISO-8859-1"
string(10) "ISO-8859-1"

場合に寄っては、同じバイト配列が、複数の文字エンコーディング的に正しいかもしれませんが、どの解釈が意図されたものなのかを知ることは不可能です。たとえば、バイト配列 "\xC4\xA2" は、以下のように解釈できます:

"Ä¢" (U+00C4 LATIN CAPITAL LETTER A WITH DIAERESIS のあとに、U+00A2 CENT SIGN が続いたもの) これらは、ISO-8859-1, ISO-8859-15, Windows-1252 でエンコードされたものと解釈できます。
"ФЂ" (U+0424 CYRILLIC CAPITAL LETTER EF のあとに、 U+0402 CYRILLIC CAPITAL LETTER DJE が続いたもの) これは、ISO-8859-5 でエンコードされたものと解釈できます。
"Ģ" (U+0122 LATIN CAPITAL LETTER G WITH CEDILLA) これは、UTF-8 でエンコードされたものと解釈できます。

例3 複数のエンコーディングと一致した場合の効果


<?php
$str = "\xC4\xA2";

// 3つ全てのエンコーディングに照らして正しい文字列なので、
// 最初のひとつが返されます。
var_dump(mb_detect_encoding($str, ['UTF-8', 'ISO-8859-1', 'ISO-8859-5']));
var_dump(mb_detect_encoding($str, ['ISO-8859-1', 'ISO-8859-5', 'UTF-8']));
var_dump(mb_detect_encoding($str, ['ISO-8859-5', 'UTF-8', 'ISO-8859-1']));
?>

上の例の出力は以下となります。

string(5) "UTF-8"
string(10) "ISO-8859-1"
string(10) "ISO-8859-5"

参考

mb_detect_order() - 文字エンコーディング検出順序を設定あるいは取得する

関連キーワード: 　文字, string, 検出, detect, strict, 解釈, order, 配列, バイト, CAPITAL