(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】2021105808
(43)【公開日】20210726
(54)【発明の名称】発話者認識システム、発話者認識方法、及び発話者認識プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20210625BHJP
   G10L 15/00 20130101ALI20210625BHJP
   G10L 15/25 20130101ALI20210625BHJP
【FI】
   !G06T7/00 660A
   !G10L15/00 200B
   !G10L15/25
【審査請求】未請求
【請求項の数】9
【出願形態】OL
【全頁数】16
(21)【出願番号】2019236314
(22)【出願日】20191226
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
【住所又は居所】東京都大田区中馬込1丁目3番6号
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】後藤 悠斗
【住所又は居所】東京都大田区中馬込1丁目3番6号 株式会社リコー内
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA04
5L096EA03
5L096EA13
5L096EA39
5L096FA62
5L096FA66
5L096FA69
5L096GA51
5L096HA08
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【課題】会議参加者の顔が隠れていても正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やす。
【解決手段】発話者認識システム1は、撮影された映像内の人物の身体部位を検出する身体部位認識部6と、映像内の人物の顔領域を認識する顔領域認識部7と、顔領域の認識結果に基づき顔領域から口唇領域を抽出する口唇領域抽出部9と、抽出された口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部12と、口唇特徴量に基づき発話の有無を判定する発話検出部13と、映像内の人物の顔特徴量に基づき発話の発話者を特定する発話者認識部15と、を備える。顔領域認識部7は、顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された身体部位の情報を用いて、顔領域の認識結果を補正し、口唇領域抽出部9は、補正された顔領域の認識結果に基づき口唇領域を抽出する。
【選択図】図5
【特許請求の範囲】
【請求項1】
撮影された映像内の人物の身体部位を検出する身体部位認識部と、
前記映像内の前記人物の顔領域を認識する顔領域認識部と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、
前記口唇特徴量に基づき発話の有無を判定する発話検出部と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、を備え、
前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識システム。
【請求項2】
前記口唇領域抽出部により抽出された前記口唇領域の画素数を所定の画素数に変換する口唇画素数変換部を備え、
前記口唇特徴量算出部は、前記所定の画素数に変換された口唇領域を用いて前記口唇特徴量を算出する、請求項1に記載の発話者認識システム。
【請求項3】
前記映像内のすべての人物の顔特徴量を保存する顔特徴量保存部を備え、
前記発話者認識部は、前記顔特徴量保存部に保存されている前記顔特徴量と、前記発話検出部により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する、
請求項1または2に記載の発話者認識システム。
【請求項4】
前記発話検出部は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の1話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
請求項1〜3のいずれか1項に記載の発話者認識システム。
【請求項5】
前記口唇特徴量と、前記口唇特徴量に同期した話者ごとの音声特徴量とを重み付けして融合して、融合した特徴量を用いて発話検出を行う、
請求項1〜4のいずれか1項に記載の発話者認識システム。
【請求項6】
発話音声に基づき発話内容を認識して出力する、
請求項1〜5のいずれか1項に記載の発話者認識システム。
【請求項7】
前記発話検出部の発話検出結果による発話の開始時刻および終了時と、前記発話者認識部の発話者認識結果による発話者の顔画像、及び、前記発話内容の認識結果を一覧出力する、
請求項6に記載の発話者認識システム。
【請求項8】
撮影された映像内の人物の身体部位を検出する身体部位認識ステップと、
前記映像内の前記人物の顔領域を認識する顔領域認識ステップと、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出ステップと、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量ステップと、
前記口唇特徴量に基づき発話の有無を判定する発話検出ステップと、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識ステップと、を含み、
前記顔領域認識ステップは、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出ステップは、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識方法。
【請求項9】
撮影された映像内の人物の身体部位を検出する身体部位認識機能と、
前記映像内の前記人物の顔領域を認識する顔領域認識機能と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出機能と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出機能と、
前記口唇特徴量に基づき発話の有無を判定する発話検出機能と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識機能と、をコンピュータに実現させ、
前記顔領域認識機能は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出機能は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話者認識システム、発話者認識方法、及び発話者認識プログラムに関する。
【背景技術】
【0002】
様々な場所で開催される会議向けの音声認識システムにおいて、周囲の雑音や、他者の発話との重複の影響により、音声単独による認識精度が低下する問題がある。この問題に対し、音声情報を補完するために、音響的なノイズに影響を受けない画像情報を使った発話者の口唇の動きから発話内容を認識する機械読唇技術(リップリーディング)や、対象の発話が会議参加者のうち誰の発話なのか分類する話者認識技術(話者ダイアライゼーション)が既に知られている。
【0003】
特許文献1には、会議において正確に参加者の発話状態を認識する目的で、会議卓の中心に魚眼レンズを用いた広角撮影装置を設置し、歪みを補正するために、撮影された顔画像を平面正則画像に変換し、口唇領域を抽出し、参加者が発話しているか否かを判定することが開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、今までの画像情報を使った発話内容認識システムにおける機械読唇や話者ダイアライゼーションは、正確に会議参加者の口唇の位置を検出し続けなくてはならず、例えば、カメラの正面を参加者が見ていない時や、手などで顔の領域の一部が隠れている時などに起こる顔認識誤りによって、機械読唇ができる機会が減ってしまうという問題があった。
【0005】
本発明は、会議向けの発話者認識システムにおいて、会議参加者の顔が隠れていても正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明の一観点に係る発話者認識システムは、撮影された映像内の人物の身体部位を検出する身体部位認識部と、前記映像内の前記人物の顔領域を認識する顔領域認識部と、前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、前記口唇特徴量に基づき発話の有無を判定する発話検出部と、前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、を備え、前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する。
【発明の効果】
【0007】
会議向けの発話者認識システムにおいて、会議参加者の顔が隠れていても正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことができる。
【図面の簡単な説明】
【0008】
【図1】画像情報を用いた発話者認識システムについて説明する図
【図2】第1実施形態に係る発話者認識システムの機能ブロック図
【図3】処理装置のハードウェア構成図
【図4】顔特徴量抽出処理のフローチャート
【図5】認識した身体部位座標を使った顔認識の補正に関するフローチャート
【図6】口唇画像抽出補正手法の概要について説明する図
【図7】発話者認識手法に関するフローチャート
【図8】第2実施形態に係る発話者認識システムの機能ブロック図
【図9】発話者モデルの切り替え処理のフローチャート
【図10】第3実施形態に係る発話者認識システムの機能ブロック図
【図11】マルチモーダル発話者認識システムの出力結果の表示例を示す図
【発明を実施するための形態】
【0009】
以下、添付図面を参照しながら実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。
【0010】
[第1実施形態]
図1〜図7を参照して第1実施形態を説明する。図1は、画像情報を用いた発話者認識システム1について説明する図である。
【0011】
図1は、本実施形態を説明する会議の場の一例であり、参加者A、B、C、Dの4名による会議を例とする。発話内容の認識を始めとする、複数のカメラ(この例では3台とする)とマイクが備わった集録デバイス2と、その入力データ等の基本制御を行うPCのような処理装置3とが有線、もしくは無線で接続されており、集録デバイス2で参加者A、B、C、Dを撮影する。
【0012】
発話者の認識を処理装置3自身で行う他には、処理装置3がLANにネットワーク接続されており、LAN内、もしくはインターネット上のクラウドサーバへ撮影したデータを転送して、発話者の認識をし、認識結果を処理装置3が受け取る方法も考えられる。
【0013】
処理装置3が認識した、あるいはサーバ等別の装置から受け取った認識結果を電子白板4上に表示させることで発話者や発話内容を可視化する。また、電子白板4に表示させずとも、テキスト化した発話者および、発話内容を保存しておき、会議終了後に議事録として出力する方法も考えられる。
【0014】
なお、集録デバイス2は、会議の参加者A〜Dの全員を撮影できればよく、カメラの種類や台数に制限はない。例えば1台の全方位カメラを用いてもよい。
【0015】
図2は、第1実施形態に係る発話者認識システム1の機能ブロック図である。図2に示すように、第1実施形態に係る発話者認識システム1は、口唇画像を用いて発話者を特定する。
【0016】
映像入力部5は、集録デバイス2のカメラによって撮影された、会議の参加者A〜Dが含まれる映像を取得する。
【0017】
身体部位認識部6は、映像入力部5により取得された連続したフレーム画像シーケンス(例えば25フレーム)に対して複数の人物がいる領域を認識し、身体の目、鼻、耳、首、肩、肘などの部位の座標を取得する。予め大量のデータをニューラルネットワークなどで学習させたモデルを利用する。OpenPose(https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの既存の技術を利用しても良い。身体部位認識部6が座標を取得する身体部位のパーツ数は、例えば26個である。なお、身体部位認識部6は、少なくとも首の座標を取得できればよい。
【0018】
顔領域認識部7は、身体部位認識部6と同様に、取得した連続したフレーム画像に対して複数の人の顔の領域を認識し、目、鼻、口等、顔のパーツの詳細な座標を取得する。予め大量のデータをニューラルネットワークなどで学習させたモデル(例えばfacenetなど)を利用する。Dlib(http://dlib.net/)などの既存の技術を利用しても良い。なお、顔領域認識部7は、映像入力部5により取得された映像から人物の身体の各部の座標を取得する点では身体部位認識部6と共通する。しかし、顔領域認識部7は、座標を取得する部位を身体のうち顔のみに限定している点、及び、顔領域の中で座標を取得する顔のパーツがより細分化されて多い点で、身体部位認識部6と異なる。顔領域認識部7が座標を取得する顔領域のパーツ数は、例えば68個である。
【0019】
顔特徴量保存部8は、顔領域認識部7で顔を認識する際に画像を入力したニューラルネットワークなどの出力ベクトルを保存する。このベクトルは、話者の顔の特徴を表す埋込情報であり、128次元などのものである。顔特徴量保存部8に保存される出力ベクトルとは、例えば、顔認識用のニューラルネットワークとして知られているfacenetの学習済みモデルに、顔領域認識部7で用いた顔画像を入力したときに、学習済みモデルの各出力層(例えば128個)の出力値の組である。
【0020】
口唇領域抽出部9は、顔領域認識部7で認識された顔領域の画像から、パーツの座標データを用いて、口唇領域のみの画像に変換する(図6参照)。つまり口唇領域抽出部9は、顔領域の画像から口唇領域の画像を切り出して抽出する。また、口唇領域抽出部9は、口唇領域の座標を取得して、口唇領域座標保存部10に保存する。
【0021】
口唇領域抽出部9により抽出された口唇領域の画像は、カメラと会議参加者との距離によって大きさが異なるので、口唇画素数変換部11によって、例えば150×75pixelのような一律のサイズに拡大、または縮小されて画一化される。
【0022】
口唇特徴量算出部12は、口唇画素数変換部11によりサイズが画一化された連続の口唇画像シーケンスから、特徴ベクトル(口唇特徴量)を抽出する。
【0023】
発話検出部13は、口唇特徴量算出部12により抽出された口唇画像の特徴ベクトルに基づき、その口唇画像シーケンスに写っている口唇領域は発話しているものなのか、それとも発話をしていないものなのかの分類を行う。特徴ベクトル(口唇特徴量)は、発話検出部13の分類がしやすいような特徴量であり、例えば、唇の中央部分の上唇と下唇の差分が挙げられる。この差分が変動している場合に、発話していると判定できる。
【0024】
なお、口唇特徴量の抽出(畳み込みパラメータの最適化)から分類までを1つのニューラルネットワークで実現するEnd−to−Endの構成でもよい。実際には、収録したデータを使用して学習することになり、それによって最適化された学習済みのニューラルネットワークを検出モデル14として利用する。つまり、口唇特徴量算出部12及び発話検出部13の機能を纏めて、1つの検出モデル14に置き換えてもよい。
【0025】
発話者認識部15は、発話検出部13によって発話が検出された際に、顔特徴量保存部8に保存されている顔特徴量を参照して、会議中の誰が発言したのかを認識する。話者認識は、例えば、顔特徴量保存部8に保存されているすべての会議参加者の顔特徴量と、発話検出部13により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い会議参加者を発話者と判定できる。
【0026】
認識結果出力部16は、発話者認識部15の認識結果を電子白板4などの画面に表示したり、テキストファイルとして保存する。また、認識結果出力部16は、集録デバイス2のマイクによって録音された発話音声に基づき、発話内容を認識して、発話者の情報と紐づけて出力してもよい。
【0027】
図3は、処理装置3のハードウェア構成図である。図3に示すように、処理装置3は、物理的には、CPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102およびROM(Read Only Memory)103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイやタッチパネル等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、ハードディスク等の記憶装置107、などを含むコンピュータシステムとして構成することができる。
【0028】
図2に示す発話者認識システム1の各要素の機能は、CPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェア(発話者認識プログラム)を読み込ませることにより、CPU101の制御のもとで通信モジュール106、入力装置104、出力装置105を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。すなわち、本実施形態の発話者認識プログラムをコンピュータ上で実行させることで、処理装置3は、図2に示す各要素として機能する。
【0029】
本実施形態の発話者認識プログラムは、例えばコンピュータが備える記憶装置内に格納される。なお、発話者認識プログラムは、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、コンピュータが備える通信モジュール等により受信されて記録(インストールを含む)される構成としてもよい。また、発話者認識プログラムは、その一部又は全部が、CD−ROM、DVD−ROM、フラッシュメモリなどの持ち運び可能な記憶媒体に格納された状態から、コンピュータ内に記録(インストールを含む)される構成としてもよい。
【0030】
図4は、顔特徴量抽出処理のフローチャートである。図4のフローチャートの各処理は、図2に示す機能ブロックのうち、主に身体部位認識部6、顔領域認識部7、顔特徴量保存部8、口唇領域抽出部9、口唇領域座標保存部10により実行される。
【0031】
S102でカメラからの映像に対して、身体部位を認識させる。身体認識結果は正しく取得できるという仮定の下で以下の処理を説明する。身体部位認識結果からS103で参加者が何人いるかを算出する。同時にS104で参加者の顔領域を認識させる。
【0032】
S105からS115まで算出された参加者の人数だけ繰り返す処理をする。ここでは、説明の簡略化のため、認識された複数の参加者のうち、一人についての処理のみを説明をする。
【0033】
まず、S106で身体部位情報を保存しておく。S107の分岐は、2回目以降に行われ、初回はTrue(図中のS107のYES)のルートに入る。S108で、顔認識器の埋め込み情報である、顔特徴量を算出する。S119で、口唇領域座標保存部10に保存済みの顔特徴量との類似度を算出するが、初回は保存済みのものが存在しないので、このステップは飛ばす。ここでの類似度はベクトル同士の多次元のユークリッド距離とする。顔特徴量の場合、一般的にこの距離が0.6未満であれば、同一人物とみなされる。S110の分岐で、口唇領域座標保存部10に保存されている複数の顔特徴量との距離が0.6未満のものがあった場合(S110のYES)、口唇領域座標保存部10に保存されている該当の顔特徴量を更新する。
【0034】
尚、一つの顔画像に対して、0.6未満の保存されている顔特徴量が複数ある場合は、距離が最小のものを選択して、口唇領域座標保存部10に保存されている選択した顔特徴量の更新を行う。
【0035】
S110の分岐で、保存されているものの中に距離が0.6未満の顔特徴量が存在しない場合(S110のNO)、新たな参加者が増えたと考えられるため、S111でその顔特徴量を口唇領域座標保存部10に保存する。
【0036】
S113で顔認識結果に基づいて口唇領域を抽出し、その座標をS114でバッファに保存しておく。
【0037】
S116のステップでは、もし検出された人数分のこの作業が終わったあとに、口唇領域座標保存部10に保存されている顔特徴量のうち、更新されなかったものがあった場合、その参加者がその場から去ったと考えられるため、S117でその顔特徴量を口唇領域座標保存部10から破棄する。これにより、口唇領域座標保存部10に保存されている顔特徴量の数が増え続けることを避けることができる。
【0038】
尚S107の判定は毎フレーム行う必要はなく、数秒、数十秒毎で行ってもよい。
【0039】
このように、口唇領域座標保存部10には、カメラ映像に写っているすべての会議参加者の顔特徴量が保存されている。
【0040】
図5は、認識した身体部位座標を使った顔認識の補正に関するフローチャートである。この処理はカメラから取得された映像に対して、毎フレーム行う。図5のフローチャートの各処理は、図2に示す機能ブロックのうち、主に身体部位認識部6、顔領域認識部7、顔特徴量保存部8により実行される。
【0041】
S202、S203、S204は、それぞれ図4のS102、S103、S104と同じ処理であり、図5のフローチャートのS205以降の各処理は、図4のS204の顔領域の認識の際の、顔認識の異常を修正する手法である。ここでは、説明の簡略のため、一人の参加者についての処理のみを述べるが、実際にはこの処理が検出された人数分行われる。
【0042】
S202で検出される身体部位は、目、鼻など顔のパーツの大まかな位置、及び、首や肩、肘や膝、踵などの部位の座標が26点取得できる。これらの部位は全てを検出できなくてもよく、例えば会議シーンだと卓があることが多く、下半身は撮影されないが、その場合は、上半身のみの座標を取得できる。また、S203では、S202で検出される身体部位のグループの数で、参加者の人数を算出できる。
【0043】
S204で検出された顔領域は、顔認識の結果得られる目や鼻、口や輪郭などの68点の座標から決定される。そのうち口の中心座標を口の周辺の座標から算出する。
【0044】
S205で、撮影された複数の人物のパーツのうち、S202で検出された首の座標と、S204で求めた口唇中心座標の身体部位のそれぞれのユークリッド距離を算出する。首が検出されない場合は、鼻などでも良い。これらを身体部位データとする。そして、口唇中心座標と首座標とのユークリッド距離が近い身体部位データの有無を探索する。
【0045】
顔認識は、身体認識と比べると認識が困難であり、カメラに対して横を向いていたり、手で口元や鼻を触っていたりする時に認識されなかったり(図6のC氏とD氏の画像参照)、認識される座標が、実際の顔の位置から大きく外れることがある(図6のB氏の画像参照)。この場合、口唇中心座標と首座標とのユークリッド距離は離れたものとなったり、顔領域自体を認識できなくなるなど、顔認識に何らかの異常が生じ、口唇領域の判定精度が低下すると考えられる。図5のフローチャートのS205以降の処理は、顔認識異常時に、口唇領域の判定精度が低下しないように補正するための手法である。
【0046】
S206では、取得された口唇中心座標と身体部位データの座標が近いものがあるか否かが判定される。例えば、ユークリッド距離が所定値以下の場合に、口唇中心座標と首座標とが近いと判定できる。口唇中心座標と身体部位データの座標が近いものがあれば(S206のYES)、顔と身体が正しく認識されたとして、S207では認識した顔座標を更新する。
【0047】
一方で、身体部位データと口唇中心座標が大きく乖離していた場合、または顔領域の座標を取得できない場合(S206のNO)、顔認識が失敗したと判断され、S208では前回の顔認識結果の座標を使用して、顔座標の更新を行わない。
【0048】
更に、もし顔認識が失敗して、身体部位データに対して、顔の数が足りない場合も、顔認識が失敗したと判断され、前回の顔認識結果の座標を使用して顔座標の更新を行わない。
【0049】
なお、S208の処理は、顔認識異常時に、口唇領域の判定精度が低下させないための処理であればよく、前回の顔領域座標を使用する手法以外の手法を用いてもよい。例えば、首座標の直上の領域を顔領域とみなす手法など、S202で認識された身体部位の情報から顔領域の位置を推定する手法でもよい。
【0050】
このような図5のフローチャートの一連の処理により、後のステップで、高精度に口唇画像を抽出することができ、発話検出の機会を増やすことができ、また、高精度に検出を行うことができる。
【0051】
図6は、口唇画像抽出補正手法の概要について説明する図である。図6では、図5で説明した顔認識結果の補正、及び口唇抽出の概要を表す。
【0052】
カメラが3台あった場合、座席への座り方によってA、B、C、Dの参加者が図6に示す3枚の画像のように撮像される。参加者Aの顔認識結果から、顔領域31が抽出され、また口唇領域32が抽出される。
【0053】
この顔認識結果は、図5で説明した身体部位データ(首座標33)を元に補正することができる。
【0054】
例えばカメラから近い距離で、かつカメラの方向を向いている参加者Aは、正確に口唇領域32を抽出できるが、カメラから遠い座席に着席している参加者C、Dは口唇領域32の認識精度が下がる。
【0055】
また、参加者Cは、口を隠していることで顔領域31を検出できず、顔認識に失敗している。本実施形態では、このように顔認識に失敗している場合でも、身体データ(首座標33)と、直前の顔領域31Aの座標データを使用して、口唇領域32の位置を取得し続けている。これにより、口唇の一部が隠れていたとしても、発話検出の機会を得られる。
【0056】
参加者Dは、カメラの方向を向いていないため顔領域31を検出できず、顔認識に失敗しているが、参加者Cの場合と同様に、首座標33と、直前の顔領域31Aの座標とを使用して、口唇領域32の位置を取得し続けられる。これにより横向きの口唇画像だとしても、発話検出の機会を得られる。
【0057】
また、参加者Bの画像では、例えば背景の色や模様などの影響によって、認識された顔領域31が実際の顔の位置と異なる場合がある。この場合でも、顔領域31と首座標33との距離が大きく、顔認識に失敗していると認識して、首座標33の直上に仮想顔領域31Bを設定することによって、仮想顔領域31Bの中で口唇領域32を取得できる。
【0058】
図7は、発話者認識手法に関するフローチャートである。図7では、図4のフローチャートで抽出した顔特徴量と、図5のフローチャートで抽出した口唇画像を用いた、具体的な発話者認識手法に関するフローチャートが示されている。図7のフローチャートの各処理は、図2に示す機能ブロックのうち、主に口唇画素数変換部11、口唇特徴量算出部12、発話検出部13、発話者認識部15、認識結果出力部16により実行される。
【0059】
S302で、抽出した口唇領域を元に口唇画像を生成する。S303で口唇画像をリサイズし、S304でこの画像から口唇特徴量を算出する。そして、S305でこの口唇特徴量を発話検出させる単位のフレーム数分だけスタックする。S306の分岐において、発話検出させるフレーム数を30フレームと設定すると、スタックしたフレーム数が30フレームに達成する(S306のYES)まで口唇画像の生成を繰り返す。
【0060】
30フレーム分スタックさたらものを1ユニットとする。S307でこのユニットに対して発話検出を行う。S308の分岐で、このユニットに対して発話が検出されない場合(S307のNO)、また次のフレームから口唇画像を生成する。
【0061】
発話が検出された場合(S307のYES)、ユニットの中の1フレームを使用してS309で話者認識を行う。S310では、図4で保存していた顔特徴量と比較し、一致と判断された顔特徴量が保存されていた場合(S310のYES)、既知の特定の話者であるという情報をS311で出力結果に付与する。この際の条件は、顔特徴量を保存したときと同様で、スタックした口唇特徴量に相当する顔画像の、顔特徴量を算出したものと、保存されている顔特徴量とのユークリッド距離を算出し、0.6未満かつ、最小のものを採用する。
【0062】
もし保存している顔特徴量のうち、一致と判断されたものが該当しなかった場合(S310のNO)は、話者情報を付与せず、S312では、不明の話者の発話であるという結果が出力される。
【0063】
S311で話者情報が付与された場合は、S312で誰による発話なのか出力される。
【0064】
第1実施形態に係る発話者認識システム1は、撮影された映像内の人物の身体部位を検出する身体部位認識部6と、映像内の人物の顔領域を認識する顔領域認識部7と、顔領域の認識結果に基づき顔領域から口唇領域を抽出する口唇領域抽出部9と、抽出された口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部12と、口唇特徴量に基づき発話の有無を判定する発話検出部13と、映像内の人物の顔特徴量に基づき発話の発話者を特定する発話者認識部15と、を備える。顔領域認識部7は、顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された身体部位の情報を用いて、顔領域の認識結果を補正し、口唇領域抽出部9は、補正された顔領域の認識結果に基づき口唇領域を抽出する。
【0065】
この構成により、撮影された映像内の人物の顔認識に失敗した場合でも、前回の顔認識結果、または、認識された身体部位の情報を用いて、顔領域の認識結果を補正し、補正された顔領域の認識結果に基づき口唇領域を抽出することが可能となる。これにより、会議向けの発話者認識システム1において、会議参加者A〜Dの顔が隠れていても、正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことができる。
【0066】
また、第1実施形態に係る発話者認識システム1は、口唇領域抽出部9により抽出された口唇領域の画素数を所定の画素数に変換する口唇画素数変換部11を備える。口唇特徴量算出部12は、口唇画素数変換部11により所定の画素数に変換された口唇領域を用いて口唇特徴量を算出する。
【0067】
口唇領域抽出部9により抽出された口唇領域の画像は、カメラと会議参加者との距離によって大きさが異なるが、本実施形態では上記構成によって、口唇画素数変換部11により口唇領域の画像が所定の画素数に変換されて画一化される。これにより、口唇特徴量算出部12により算出される口唇特徴量は、カメラと会議参加者との距離の影響を受けずに安定したものとなり、口唇特徴量に基づく発話検出を高精度に行うことができる。
【0068】
また、第1実施形態に係る発話者認識システム1は、映像内のすべての人物の顔特徴量を保存する顔特徴量保存部8を備える。発話者認識部15は、顔特徴量保存部8に保存されている顔特徴量と、発話検出部13により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する。この構成により、発話者の判定を精度良く行うことができる。
【0069】
[第2実施形態]
図8〜図9を参照して第2実施形態を説明する。
【0070】
図8は、第2実施形態に係る発話者認識システム1Aの機能ブロック図である。 図8に示すように、第2実施形態に係る発話者認識システム1Aは、話者モデルの切り替えを考慮する。
【0071】
発話者認識システム1Aは、主な構成は図2の第1実施形態の発話者認識システム1のものと同様である。第1実施形態との相違点は、発話者認識部15は顔特徴量保存部8と関係している点である。また、新たにモデル切替部17を備える。例えばよくこのシステムを利用する既知の話者毎の発話検出モデル18を用意しており、モデル切替部17は、発話者認識部15の結果に応じて適切なモデルを選択する。発話検出部13は、選択されたモデルを用いて発話検出を行う。これにより、発話検出部13による発話検出の精度を向上させる。図8では、発話検出モデル18は、特定の話者の発話データを用いて学習され特定の話者ごとに特化された検出モデル1〜Xとして図示されている。また、発話検出モデル18は、多数の話者の発話データを用いて学習させた汎用検出モデルを含んでもよい。
【0072】
図9は、発話者モデルの切り替え処理のフローチャートである。
【0073】
S402、S403、S404、S405、S406は、図7に示した第1実施形態の発話者認識手法のS302、S303、S304、S305、S406と同じ処理である。
【0074】
S406の分岐で必要な数フレームがスタックされたとき(S406のYES)に、ユニットの中の1フレームを使用してS407で話者認識を行う。S408はS310と同じ条件であり、もし一致と判断された顔特徴量が保存されていた場合(S408のYES)、S409では、保存していた話者毎の検出モデルから、対象の特定話者の発話検出モデル18を検索する。対象の特定話者個人の検出モデルが存在しない場合(S409のNO)は、多くの人で学習させた汎用の検出モデルを利用する(S410)が、特定話者の発話検出モデル18を保有していた場合(S409のYES)、S411で発話検出に利用するモデルに、この発話検出モデル18(特定話者モデル)を設定する。また、この段階でS412の話者情報の付与を行う。
【0075】
それぞれの特定話者の発話検出モデル18、もしくは汎用モデルを使用してS413で発話検出を行う。S414とS415は図7のS308、S312と同様の処理である。
【0076】
特定話者の発話検出モデル18(特定話者モデル)は、個人の口唇の特徴や発話スタイルが学習されて作成されたものなので、特定の個人を対象にした場合、汎用モデルを使用するよりも、発話検出の高精度化が期待できる。
【0077】
[第3実施形態]
図10〜図11を参照して第3実施形態を説明する。
【0078】
図10は、第3実施形態に係る発話者認識システム1Bの機能ブロック図である。図10に示すように、第3実施形態に係る発話者認識システム1Bは、音声を利用したマルチモーダル発話者認識システムとなり、口唇画像だけでなく音声も使用する。
【0079】
映像入力部5に加え、音声入力部19と、その音声から特徴量を抽出する音声特徴量算出部20が、図2の第1実施形態の構成に追加される。音声特徴量は、発話検出部13の分類がしやすいような特徴量であり、例えばMFCC(メル周波数ケプストラム係数)が挙げられる。
【0080】
特徴量融合部21は、口唇特徴量と、それに同期した話者ごとの音声特徴量とを重みづけして融合する。これにより、発話をより検出しやすい特徴量に変換させることで、高精度な発話検出が期待できる。
【0081】
映像のフレームレートが30fps(33.3msec)だとした場合、例えば音声特徴量を、10msecを1フレームとして算出したとしても、映像特徴量を算出したフレームのほうがおよそ3倍長い。特徴量融合部21では、この長さの差を埋めるために、1映像特徴量に対して例えば3フレーム分の音声特徴量を結合させるような、音声同期させる機能を持つ。
【0082】
また、第1実施形態の検出モデル14と同様に、口唇特徴量算出部12、発話検出部13、音声特徴量算出部20、特徴量融合部21の機能を纏めて、1つの検出モデル22に置き換えてもよい。
【0083】
図11は、マルチモーダル発話者認識システム1Cの出力結果23の表示例を示す図である。
【0084】
出力結果23は、電子白板4などに表示させる、もしくはドキュメントとして保存させる表示例である。
【0085】
出力結果23では、例えば、発話検出したユニットのフレーム番号から、該当の発話の開始時刻と終了時刻を表示させる。
【0086】
また、出力結果23では、発話者認識ができた場合は、その代表のフレームの顔画像を同じ行に表示させる。一方で、発話検出はできたが、発話者の認識ができなかった場合は、顔画像は表示させずに空白にする。
【0087】
出力結果23では、システムが音声認識も同時に行えるものの場合、発話内容自体も表示させる。つまり出力結果23では、発話検出部13の発話検出結果による発話の開始時刻および終了時と、発話者認識部15の発話者認識結果による発話者の顔画像、及び、発話内容の認識結果が一覧出力される。
【0088】
なお、図11に示す出力結果23は、第3実施形態のマルチモーダル発話者認識システム1Cに限らず、第1、第2実施形態の発話者認識システム1、1Aでも同様のものを作成できる。
【0089】
以上、具体例を参照しつつ本実施形態について説明した。しかし、本開示はこれらの具体例に限定されるものではない。これら具体例に、当業者が適宜設計変更を加えたものも、本開示の特徴を備えている限り、本開示の範囲に包含される。前述した各具体例が備える各要素およびその配置、条件、形状などは、例示したものに限定されるわけではなく適宜変更することができる。前述した各具体例が備える各要素は、技術的な矛盾が生じない限り、適宜組み合わせを変えることができる。
【符号の説明】
【0090】
1、1A、1B 発話者認識システム
6 身体部位認識部
7 顔領域認識部
8 顔特徴量保存部
9 口唇領域抽出部
11 口唇画素数変換部
12 口唇特徴量算出部
13 発話検出部
15 発話者認識部
【先行技術文献】
【特許文献】
【0091】
【特許文献1】特開2015−019162号公報
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】