口唇動作による非発声を特徴とするインタフェースの研究

研究の目的

携帯電話のアプリケーションとして組み込まれている音声入力式ナビゲーションシステム、カーナビなど、音声認識技術の発達はめざましく、様々な場面で活用されています。音声認識技術は音声をマイクを通して音声認識装置に取り込むところから始まります。しかし、周囲の雑音が一定以上に高い場所で発話すると、周囲の環境雑音入力音声が混ざり、誤認識したり認識が困難になることがあります。また、同時に2人以上の人が発声すると、それぞれの声を分離するのは簡単ではありません。
 そこで、音声認識を用いず、発声内容を分析するために、発声時の口唇の画像を用いて、発声内容を読唇術のように読み取る手法について紹介します。

実現イメージ

発声中の口唇部分を検出するために、パソコンに接続されたUSBカメラで発声者の顔を撮影し、得られた動画像から口唇部分を画像処理により抽出するします。右図の例では、両目を抽出し、そのデータから口唇の位置を検出しています。
 特定された口唇の位置から発声中の口唇動作を検出します。日本語の母音列「あいうえお」を発声するときの口唇動作パターンはそれぞれ固有の動作を行うため、いずれの母音が発声されたかを口唇部と下顎部の動作から分析して区別します。このとき、口唇部の動きが最も特徴的に動く5点(口唇の上下左右端、下顎端)を指標として抽出し、その動作軌跡を時系列で取得します。

参考文献
柳朋宏、坂本篤史、山田光穗:口唇動作を用いた発話認識法の提案、ヒューマンインタフェースシンポジウム2007,2520
柳朋宏、山田光穗:音声を伴わない発話認識インタフェース構築における口唇動作モデルの提案と検証、ヒューマンインタフェースシンポジウム2008,2422

視力と見え方のシミュレーション

上述した5点の動作履歴を周波数解析して、各母音の区別ができることが分かりました。発声者にかかわらず、より安定して母音認識ができるようなアルゴリズムの開発をめざして研究を進めています。