表記ゆれ

 今日は毎月1回の新技術に触れる日

「研究開発の日」でした。


音声認識を使用して、パソコン・スマホに触れずにシステム操作しようと試行錯誤を重ねています。


Amazon Echoや、Google Homeに代表されるスマートスピーカーに話しかけて、期待通りの答えが返ってこない経験をお持ちの方も少なくないのではないでしょうか。

音声認識において、認識率が100%とならない1つの要因として「表記ゆれ」という問題があります。


例えば『果物リストから「シークヮーサー」は何行目に記載されているのか探して』と指示したとします。

コンピューターは曖昧な指示が苦手なので、「シークーサー」だとか「シークーサー」と音声認識が文字変換したら一致する果物が見つからず、期待する結果は得られないということになります。


このように、同音・同義であるにも関わらず、表記が異なることを「表記ゆれ」と呼びます。


表記ゆれの対策と知られるものは、いくつか存在し「ローマ字変換」「編集距離から正解を推測」などがあります。

これらの話題は、また次の研究開発ブログで。

このブログの人気の投稿

技術メモ「503 Service Unavailable」

グーグルグループのメーリングリストの返信先が個人になってしまう

『ネットワークドライブ』のトラブル