(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)
mb_detect_encoding — 文字エンコーディングを検出する
$string
, array|string|null $encodings
= null
, bool $strict
= false
): string|false
エンコーディングの候補の一覧から、
文字列 string
のもっとも可能性が高い文字エンコーディングを検出します。
追加の情報なしに、 意図した文字エンコーディングを自動で検出する行為は、 全く役に立ちません。 これは、暗号化された文字列を鍵なしにデコードする行為に似ています。 "Content-Type" HTTP ヘッダのような、 データを転送された際に付いてくる情報や、 保存された文字エンコーディングに関する指示を指定することが常に望ましいです。
この関数は、全ての文字列が正しいバイト配列とは限らない マルチバイト文字列を指定するともっとも役に立ちます。 入力となる文字列に誤ったバイトが含まれていた場合、 そのエンコーディングは採用されず、次のものを試します。
string
調べる対象の文字列。
encodings
文字エンコーディングの一覧を試す順番に指定します。 このリストは、文字列の配列または、 カンマ区切りのリストで指定できます。
encodings
が省略された場合、
または null
の場合、
現在の detect_order
(
mbstring.detect_order 設定オプション
または mb_detect_order() で設定したもの)
を使います。
strict
encodings
で指定された
文字エンコーディングのリストの全てに対して、
不正と判定された場合の振る舞いを指定します。
strict
が false
の場合、
もっとも近いと判定された文字エンコーディングが返されます。
strict
を true
にした場合、
false
が返されます。
strict
のデフォルト値は
mbstring.strict_detection 設定オプションで指定できます。
検出した文字エンコーディングを返します。
指定したエンコーディングの全てに対して、不正と判定された場合は false
を返します。
例1 mb_detect_encoding() の例
<?php
// 現在のdetect_orderで文字エンコーディングを検出
echo mb_detect_encoding($str);
// "auto" は mbstring.language の設定を使って展開されます
echo mb_detect_encoding($str, "auto");
// 文字エンコーディングをカンマ区切りのリストで指定することで、encodings 引数を指定
echo mb_detect_encoding($str, "JIS, eucjp-win, sjis-win");
// encodings 引数を配列で指定
$encodings = [
"ASCII",
"JIS",
"EUC-JP"
];
echo mb_detect_encoding($str, $encodings);
?>
例2 strict
パラメーターの効果
<?php
// 'áéóú' は ISO-8859-1 でエンコードされています
$str = "\xE1\xE9\xF3\xFA";
// この文字列は、ASCII または UTF-8 的には正しくありませんが、
// UTF-8 がもっとも近いと判定されます
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8'], false));
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8'], true));
// 正しいエンコーディングが見つかった場合、
// strice パラメータを指定しても結果は変わりません
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8', 'ISO-8859-1'], false));
var_dump(mb_detect_encoding($str, ['ASCII', 'UTF-8', 'ISO-8859-1'], true));
?>
上の例の出力は以下となります。
string(5) "UTF-8" bool(false) string(10) "ISO-8859-1" string(10) "ISO-8859-1"
場合に寄っては、同じバイト配列が、 複数の文字エンコーディング的に正しいかもしれませんが、 どの解釈が意図されたものなのかを知ることは不可能です。 たとえば、 バイト配列 "\xC4\xA2" は、 以下のように解釈できます:
例3 複数のエンコーディングと一致した場合の効果
<?php
$str = "\xC4\xA2";
// 3つ全てのエンコーディングに照らして正しい文字列なので、
// 最初のひとつが返されます。
var_dump(mb_detect_encoding($str, ['UTF-8', 'ISO-8859-1', 'ISO-8859-5']));
var_dump(mb_detect_encoding($str, ['ISO-8859-1', 'ISO-8859-5', 'UTF-8']));
var_dump(mb_detect_encoding($str, ['ISO-8859-5', 'UTF-8', 'ISO-8859-1']));
?>
上の例の出力は以下となります。
string(5) "UTF-8" string(10) "ISO-8859-1" string(10) "ISO-8859-5"