ダメ文字の恐怖!

 


坂田です。

かつて日本語のための文字コードとして広く使われた「Shift_JIS」という文字コード。

今はほぼ全てがUTF-8などのUnicodeに取って代わられていますが、Unicodeができるまでは各国語のための文字コードが策定されていたりしました。

しかし、Shift_JISはエスケープ文字を示す「\」(半角の円記号ないし逆スラッシュ)、「0x5C」も「\」そのもの以外の文字を特定する数値に使ってしまったせいで「Shift_JIS」を想定していない環境でこの「0x5C」を使う文字を含む文字列を見ると文字化けする不具合が発生していました。

この文字化けを引き起こす文字を「ダメ文字」と言います。

画像の後ろにある文字は一部ですが、他にも普通に使う文字が「ダメ文字」になっていたりしました。

「UTF-8」ではこの反省から、マルチバイト文字では「0x5C」が出現しないように工夫して文字を特定するように作られました。

文字を特定する技術の世界は奥が深いです。

このブログの人気の投稿

技術メモ「503 Service Unavailable」

グーグルグループのメーリングリストの返信先が個人になってしまう

『ネットワークドライブ』のトラブル