(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO2018037643
(43)【国際公開日】20180301
【発行日】20190620
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G10L 25/84 20130101AFI20190530BHJP
   G10L 25/51 20130101ALI20190530BHJP
【FI】
   !G10L25/84
   !G10L25/51 400
【審査請求】未請求
【予備審査請求】未請求
【全頁数】31
【出願番号】2018535458
(21)【国際出願番号】JP2017018875
(22)【国際出願日】20170519
(31)【優先権主張番号】2016162779
(32)【優先日】20160823
(33)【優先権主張国】JP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニー株式会社
【住所又は居所】東京都港区港南1丁目7番1号
(74)【代理人】
【識別番号】100120499
【弁理士】
【氏名又は名称】平山 淳
(74)【代理人】
【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
(72)【発明者】
【氏名】落合 和樹
【住所又は居所】東京都港区港南1丁目7番1号 ソニー株式会社内
(72)【発明者】
【氏名】高橋 秀介
【住所又は居所】東京都港区港南1丁目7番1号 ソニー株式会社内
(57)【要約】
【課題】採用された雑音区間の適切さを評価する仕組みを提供する。
【解決手段】収音装置群による収音結果を示す音響信号を取得する取得部と、前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、を備える情報処理装置。
【選択図】図3
【特許請求の範囲】
【請求項1】
収音装置群による収音結果を示す音響信号を取得する取得部と、
前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、
を備える情報処理装置。
【請求項2】
前記制御部は、前記第1の重みを適用した雑音空間相関行列及び推定対象の前記音響信号の空間相関行列に基づく一般化固有値分解により得られる固有値に基づいて、前記収音装置群からみた音源方向を推定する、請求項1に記載の情報処理装置。
【請求項3】
前記制御部は、前記一般化固有値分解の対象となる前記第1の重みを適用した前記雑音空間相関行列を、過去の前記第1の重みを適用した前記雑音空間相関行列に基づいて逐次的に更新する、請求項2に記載の情報処理装置。
【請求項4】
前記制御部は、前記一般化固有値分解の計算結果に基づいて計算された空間スペクトルを前記固有値に基づく第2の重みにより重み付けして統合し、統合された前記空間スペクトルのピークが立つ方向を前記音源方向として推定する、請求項2に記載の情報処理装置。
【請求項5】
前記制御部は、過去の空間スペクトルの値を用いて逐次的に更新される閾値を超えて空間スペクトルのピークが立つ方向を前記音源方向として推定する、請求項4に記載の情報処理装置。
【請求項6】
前記制御部は、前記一般化固有値分解の計算結果に基づいて各方向から音が到来している度合いを示す指向性パターンを計算し、前記空間スペクトル及び前記指向性パターンの双方でピークが立つ方向を前記音源方向として推定する、請求項4に記載の情報処理装置。
【請求項7】
前記音源方向は、音声の到来方向である、請求項2に記載の情報処理装置。
【請求項8】
前記第1の重みは、連続値である、請求項1に記載の情報処理装置。
【請求項9】
前記制御部は、前記音響信号に音声が含まれる度合に基づいて前記第1の重みを計算する、請求項1に記載の情報処理装置。
【請求項10】
前記制御部は、前記音響信号の定常性に基づいて前記第1の重みを計算する、請求項1に記載の情報処理装置。
【請求項11】
前記定常性は、前記音響信号のパワーに基づいて計算される、請求項10に記載の情報処理装置。
【請求項12】
前記定常性は、前記音響信号の特徴量に基づいて計算される、請求項10に記載の情報処理装置。
【請求項13】
前記制御部は、音源の移動性を推定し、推定結果に応じて前記第1の重みを計算する、請求項1に記載の情報処理装置。
【請求項14】
前記制御部は、収音装置群により収音される音であって、再生装置により再生される音の再生信号に基づいて前記雑音空間相関行列を計算する、請求項1に記載の情報処理装置。
【請求項15】
前記制御部は、前記雑音空間相関行列に基づいて目的音が強調された音響信号を生成する、請求項1に記載の情報処理装置。
【請求項16】
収音装置群による収音結果を示す音響信号を取得することと、
取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みをプロセッサにより計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用することと、
を含む情報処理方法。
【請求項17】
コンピュータを、
収音装置群による収音結果を示す音響信号を取得する取得部と、
前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
近年、様々な機器を操作するために、音声認識技術を用いた音声コマンドの利用が広く行われている。音声コマンドを正しく認識するためには、収音装置からみた音声コマンドの音源である話者の方向が精度よく推定されることが望ましい。しかし、実環境では様々な雑音が存在するため、話者の方向の推定精度が低下し得る。そのため、雑音環境下において、音声の到来方向の推定精度を向上させるための技術が開発されている。
【0003】
例えば、下記特許文献1では、入力された音響信号の相関行列と当該音響信号に基づく雑音信号の相関行列とを計算し、これらの2つの相関行列に基づいて計算した空間スペクトルに基づいて、音響信号に係る音源の方向を推定する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2014−56181号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1のように、雑音のみが含まれると推定される雑音区間の信号を用いることで、目的音の到来方向の推定精度を向上させる技術は多くある。しかし、そのような技術における推定精度は、どの区間を雑音区間として採用するかに大きく依存してしまう。例えば、採用された雑音区間が不適切である場合、推定精度が大きく低下するおそれがある。そこで、採用された雑音区間の適切さを評価する仕組みが提供されることが望ましい。
【課題を解決するための手段】
【0006】
本開示によれば、収音装置群による収音結果を示す音響信号を取得する取得部と、前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、を備える情報処理装置が提供される。
【0007】
また、本開示によれば、収音装置群による収音結果を示す音響信号を取得することと、取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みをプロセッサにより計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用することと、を含む情報処理方法が提供される。
【0008】
また、本開示によれば、コンピュータを、収音装置群による収音結果を示す音響信号を取得する取得部と、前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、として機能させるためのプログラムが提供される。
【発明の効果】
【0009】
以上説明したように本開示によれば、採用された雑音区間の適切さを評価する仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
【図面の簡単な説明】
【0010】
【図1】本開示の一実施形態に係る情報処理装置の概要を説明するための図である。
【図2】本実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。
【図3】本実施形態に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図4】本実施形態に係る情報処理装置による音源方向推定処理の流れの一例を示すフローチャートである。
【図5】第1の変形例に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図6】第2の変形例に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図7】第3の変形例に係る情報処理装置の論理的な構成の一例を示すブロック図である。
【図8】第3の変形例に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図9】第4の変形例に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図10】第5の変形例に係る情報処理装置の論理的な構成の詳細な一例を示すブロック図である。
【図11】提案手法と比較手法との比較実験の実験設定を説明するための図である。
【図12】提案手法と比較手法との比較実験の実験設定を説明するための図である。
【図13】比較手法による実験結果を示す図である。
【図14】提案手法による実験結果を示す図である。
【図15】本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0011】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0012】
なお、説明は以下の順序で行うものとする。
1.はじめに
1.1.概要
1.2.MUSIC法
1.3.GEVD−MUSIC法
2.構成例
3.処理の流れ
4.変形例
4.1.第1の変形例
4.2.第2の変形例
4.3.第3の変形例
4.4.第4の変形例
4.5.第5の変形例
5.実験結果
6.ハードウェア構成例
7.まとめ
【0013】
<<1.はじめに>>
<1.1.概要>
図1は、本開示の一実施形態に係る情報処理装置1の概要を説明するための図である。情報処理装置1は、収音装置を有し、ユーザ2からの音声に基づく操作を、収音結果の音声認識により受け付ける。ただし、図1に示すように、情報処理装置1は、周囲にテレビ受像機3及びエアコンディショナー4等の雑音源がある環境において使用されることが想定される。そこで、情報処理装置1は、雑音源が周囲にあり且つ話者との距離が数メール離れている環境において、ユーザ2からの音声に基づく操作を受け付け可能であることが望ましい。さらには、情報処理装置1は、音声認識開始ボタンの押下又はリモートコントローラによる指示なしに、ユーザ2からの音声に基づく操作を受け付け可能であることが望ましい。
【0014】
そのためには、目的音(即ち、ユーザ2からの音声)の音声区間を検出すること、目的音以外の雑音を抑圧して目的音を強調すること、及び情報処理装置1を操作するユーザ2を特定すること等が、精度よく行われることが望ましい。そして、これらを実現するためには、収音された音から目的音以外の雑音を抑圧するための処理が適切に行われることが望ましい。
【0015】
収音された音から目的音以外の雑音を適切に抑圧することができれば、目的音の到来方向を精度よく推定することができる。そして、情報処理装置1は、目的音の到来方向情報に基づいて、目的音の到来方向を強調する抽出フィルターを作成及び適用(即ち、ビームフォーミング)することで、音声認識精度を向上させることが可能となる。
【0016】
本実施形態では、目的音は人の音声であるものとする。また、音声の到来方向を、音源方向とも称する。以下、音源方向の推定について詳しく説明する。
【0017】
<1.2.MUSIC法>
音源方向推定手法のひとつに、MUSIC(Multiple Signal Classification)法がある。MUSIC法は、雑音が白色であるという仮定の下、標準固有値分解で求まった固有ベクトルを利用する方法である。
【0018】
MUSIC法は、まず、ある周波数ωにおいて、ある方向θに死角を向けた空間フィルタを作り、それを空間的にスキャンする(θを、目的音が存在し得る方向候補で変化させる)ことで、θ方向から音が到来している度合いを求める。この度合いを、ここでは空間スペクトルと称する。そして、MUSIC法は、この空間スペクトルのピーク方向を、音源の方向として推定する。MUSIC法では、空間フィルタを用いたスキャンが行われるので、空間スペクトルは幅が狭く鋭いものとなり、空間スペクトルの空間分解能が高くなる。
【0019】
MUSIC法は、一般に性能が良いとされ、マイクの個数をM個とすると、理論上はM−1個までの音源の方向を推定可能である。しかしながら、MUSIC法は、周波数毎に音源数を与えることが要される上に、実環境での性能低下が懸念される。実環境は、雑音源が多い場合あること、及び雑音が有色であるためMUSIC法のモデルと合致しないこと、が要因である。
【0020】
<1.3.GEVD−MUSIC法>
上述したMUSIC法の実環境での性能低下の対策として、雑音を白色化してから固有値分解を行って(即ち、一般化固有値分解、GEVD(Generalized Eigen Value Decomposition))MUSIC法を適用する、GEVD−MUSIC法が提案されている。
【0021】
GEVD−MUSIC法においては、第1の空間相関行列と第2の空間相関行列との、2つの空間相関行列が用いられる。なお、空間相関行列とは、マイク間の相関(即ち、位相差)を表現する、分散共分散行列である。
【0022】
第1の空間相関行列とは、目的音が含まれる区間の時刻フレーム(以下、単にフレームとも称する)の空間相関行列である。即ち、第1の空間相関行列とは、音源方向の推定対象となる区間の音響信号の空間相関行列である。第1の空間相関行列の計算のために用いられるフレームを、第1の計算区間とも称する。
【0023】
第2の空間相関行列は、白色化する雑音が含まれる区間のフレームの空間相関行列である。即ち、第2の空間相関行列は、雑音信号から得られる空間相関行列である。第2の空間相関行列は、雑音空間相関行列とも称される場合がある。第2の空間相関行列の計算のために用いられるフレームを、第2の計算区間とも称する。
【0024】
ここで、第1の計算区間と第2の計算区間とで、共通のフレームが含まれないことが望ましい。共通のフレームが含まれる場合、共通した信号成分が白色化されて方向推定が困難になるためである。
【0025】
GEVD−MUSIC法では、雑音が白色化されることにより、音響信号に含まれる雑音の影響をキャンセルないし抑圧した状態で方向推定を行うことが可能である。従って、GEVD−MUSIC法は、雑音環境下でも目的音の方向推定を精度よく行うことが可能であると考えられる。ただし、GEVD−MUSIC法では、第2の空間相関行列をどのように求めるかが、推定精度に大きく影響を与える。
【0026】
そこで、第1に、目的音と重なっている雑音成分を正確に抽出し、その信号をもとに第2の空間相関行列が求められることが望ましい。しかし、その実現は非常に困難である。そのため、発話の直前の区間に含まれる雑音成分は目的音の区間と同じであるという仮定の下で、第2の空間相関行列を計算することが一般的である。ただし、その仮定が覆る場合には、推定性能は著しく劣化する。
【0027】
また、第2に、第2の計算区間に、目的音が含まれないことが望ましい。目的音が含まれる場合、目的音の方向からの音成分が白色化されてしまうためである。その対策として、第2の計算区間を、音声/非音声の判定結果に基づいて選択する手法が考えられる。しかし、そのような手法では、例えば発話が全ての時刻で続く場合には、第2の計算区間として選択可能な情報が無くなってしまう。また、第1の計算区間と第2の計算区間とで、含まれる雑音成分が大きく異なる場合、白色化の効果が薄れる、若しくは逆に悪影響を及ぼすおそれがある。従って、第2の空間相関行列の計算は、第1の空間相関行列に含まれる雑音成分と同様の成分が含まれる計算区間を用いて行われることが望ましい。
【0028】
第1の空間相関行列と第2の空間相関行列とで含まれる雑音成分が大きく異なる場合としては、例えば第2の計算区間に突発的な雑音、即ち非定常雑音が含まれる場合が考えられる。非定常雑音とは、空間的定常性、又は時間的定常性がない雑音である。一方で、空間的定常性及び時間的定常性がある雑音を、定常雑音と称する。下記の表に、定常雑音と非定常雑音の一例を示す。
【0029】
【表1】
【0030】
<<2.構成例>>
図2は、本実施形態に係る情報処理装置1の論理的な構成の一例を示すブロック図である。図2に示すように、情報処理装置1は、収音装置群10、取得部20、出力部30、記憶部40及び制御部50を含む。
【0031】
収音装置群10は、複数の収音装置を含む。各々の収音装置は、例えばマイクロフォンであり、周囲の音を収音して音響信号を生成する。
【0032】
取得部20は、収音装置群10による収音結果を示す音響信号を取得する。取得部20は、取得した音響信号を制御部50に出力する。
【0033】
出力部30は、情報を出力する。例えば、出力部30は、制御部50から出力された情報を、音声又は画像等により出力する。出力部30は、外部装置に情報を送信する通信装置であってもよい。
【0034】
記憶部40は、情報処理装置1による動作のための情報を、一時的に又は恒久的に記憶する。制御部50は、情報処理装置1の各構成要素を制御し、情報処理装置1による様々な機能を提供する。例えば、制御部50は、入力された音響信号に基づき各種計算を行い、音源方向の推定結果を示す情報を出力する。以下、図3を参照して、記憶部40及び制御部50の詳細な構成例を説明する。
【0035】
図3は、本実施形態に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図3に示すように、本実施形態に係る記憶部40又は制御部50は、音源種類推定部100、GEVD−MUSIC処理部200、周波数変換部302、閾値更新部304及びピーク検出部306を含む。なお、図3では、音源方向の推定にかかる構成要素以外は省略されている。即ち、記憶部40及び制御部50は、図3に示した構成要素以外の構成要素を含み得る。
【0036】
周波数変換部302は、取得部20により取得された時間領域の音響信号を、フレームごとにDFT(Discrete Fourier Transform)又はSTFT(Short Time
Fourier Transform)を適用して周波数領域の信号に変換する。例えば、フレーム長及びフレームシフトは、それぞれ32ms(ミリ秒)及び10msであってもよい。
【0037】
音源種類推定部100は、取得部20により取得された音響信号が定常雑音を観測した信号である度合に応じた重み(第1の重みに相当)を計算する。具体的には、音源種類推定部100は、音響信号に音声が含まれる度合、及び音響信号の定常性を推定し、これらに基づいて重みを計算する。これにより、第2の計算区間の音響信号に目的音が含まれないほど、また目的音と重なっている可能性が高い定常性のある雑音成分が含まれるほど、より大きな重みが第2の空間相関行列に適用されることとなる。よって、GEVD−MUSIC法の推定精度を向上させることが可能となる。図3に示すように、音源種類推定部100は、音響特徴量変換部102、音声非音声推定部104、音声モデル記憶部106、信号パワー推定部108、定常雑音パワー推定部110及び重み決定部112を含む。
【0038】
音響特徴量変換部102は、取得部20により取得された時間領域の音響信号を、音響特徴量に変換する。音響特徴量は、例えば40次元のメルフィルタバンクの適用により得られる。
【0039】
音声非音声推定部104は、音響特徴量変換部102により変換された音響特徴量に基づいて、フレーム内の音響信号に含まれる音の音声らしさ(即ち、音声尤度)を計算する。音声非音声推定部104は、例えば音声モデル記憶部106に記憶された音声モデルに音響特量を入力することで、音声尤度を計算する。
【0040】
音声モデル記憶部106は、音声モデルを記憶する。例えば、音声モデル記憶部106は、予めDNN(Deep Neural Network)により学習された音声モデルを記憶する。
【0041】
信号パワー推定部108は、周波数変換部302により変換された周波数領域の信号に基づいて、フレームごと及び周波数ごとの信号のパワーを計算する。
【0042】
定常雑音パワー推定部110は、フレームごと及び周波数ごとの信号のパワーに基づいて、フレームごと及び周波数ごとに定常雑音のパワーを計算する。例えば、定常雑音パワー推定部110は、次式を用いて計算する。
【0043】
【数1】
【0044】
ここで、νは、定常雑音パワーの更新係数である。また、pω,tは、フレームtにおける周波数ωの信号のパワーである。
【0045】
重み決定部112は、音響信号に音声が含まれる度合、及び音響信号の定常性に基づいて、第2相関行列計算部204において用いられる重みを計算する。音響信号に音声が含まれる度合は、音声非音声推定部104から出力された音声尤度に対応する。音響信号の定常性は、音響信号のパワーに基づいて計算される、信号パワー推定部108から出力された信号パワー及び定常雑音パワー推定部110から出力された定常雑音パワーに対応する。重みは、例えば次式により計算される。
【0046】
【数2】
【0047】
ここで、Cは定数である。また、αは、音声尤度に基づく重みである。また、αω,tは、定常雑音パワー及び信号パワーに基づく重みである。
【0048】
重み決定部112は、音声尤度に基づく重みを、音声尤度がより高い音声らしさを示すほど低くなるよう計算する。これにより、第2の空間相関行列の計算に用いられた区間の音響信号に目的音が含まれないほどより大きな重みが第2の空間相関行列に適用されることとなり、推定精度を向上させることが可能となる。音声尤度に基づく重みは、例えば次式により計算される。
【0049】
【数3】
【0050】
ここで、pは、フレームtにおける音声尤度である。また、pThは、音声尤度の閾値である。重み決定部112は、音声尤度が閾値以上である場合に重みを0にすることで、第2相関行列計算部204における第2の空間相関行列の計算に、音声が含まれるフレームが用いられないようにすることが可能である。
【0051】
重み決定部112は、定常雑音パワー及び信号パワーに基づく重みを、定常雑音パワーと比べて信号パワーが大きいほど低くなるように、また、定常雑音パワーと比べて信号パワーが小さいほど高くなるように計算する。これにより、非定常雑音であるほど重みを小さくすることができる。即ち、第2の空間相関行列の計算に用いられた区間の音響信号に目的音と重なっている可能性が高い定常性のある雑音成分が含まれるほど、より大きな重みが第2の空間相関行列に適用されることとなり、推定精度を向上させることが可能となる。定常雑音パワー及び信号パワーに基づく重みは、例えば次式により計算される。
【0052】
【数4】
【0053】
ここで、a、b及びcは定数である。
【0054】
GEVD−MUSIC処理部200は、周波数領域の音響信号と音源種類推定部100による計算結果とに基づいて、周波数間で平均された空間スペクトルを計算する。図3に示すように、GEVD−MUSIC処理部200は、第1相関行列計算部202、第2相関行列計算部204、固有値分解部206、伝達関数記憶部208、空間スペクトル算出部210、周波数重み算出部212及び周波数情報統合部214を含む。
【0055】
第1相関行列計算部202は、フレームごと及び周波数ごとの信号の相関行列を計算する。ここで計算される相関行列は、第1の空間相関行列である。なお、行列の各要素は、収音装置群10に含まれる各収音装置の相関を表す。第1の空間相関行列は、例えば次式により計算される。
【0056】
【数5】
【0057】
ここで、Tは、第1の計算区間のフレーム長である。また、zω,tは、フレームtにおける周波数ωの信号である。
【0058】
第2相関行列計算部204は、フレームごと及び周波数ごとの雑音信号の相関行列を計算する。とりわけ、第2相関行列計算部204は、重み決定部112により計算された重みをかかる相関行列に適用する。ここで計算される相関行列は、第2の空間相関行列である。第2の空間相関行列は、例えば次式により計算される。
【0059】
【数6】
【0060】
ここで、Tは、第2の計算区間のフレーム長である。また、Δtは、Rω,tとKω,tとで、共通のフレームの信号が使われないようにするための値である。
【0061】
ここで、重みαω,τは、連続値(例えば、0〜1)として計算される。ただし、重みαω,τが全てのτで0になってしまうケースが有り得ることを鑑みると、第2の空間相関行列は、次式により計算されてもよい。
【0062】
【数7】
【0063】
上記式によれば、第2相関行列計算部204は、後段の固有値分解部206による一般化固有値分解の対象となる、重みを適用した第2の空間相関行列を、過去の重みを適用した第2の空間相関行列に基づいて逐次的に更新する。このような更新式により、長時間の定常雑音成分の利用が可能になる。さらに、重みが0〜1の連続値である場合、過去の第2の空間相関行列ほど重みの積算回数が増えて重みがより小さくなるので、直近の時刻の定常雑音成分ほど大きな重みが置かれることとなる。従って、目的音の背景にある定常雑音成分に近いと考えられる、直近の時刻の定常雑音成分に大きな重みを置いた状態で第2の空間相関行列の計算が可能となる。
【0064】
固有値分解部206は、重みを適用した第2の空間相関行列及び第1の空間相関行列に基づく一般化固有値分解を行い、固有値を計算する。例えば、固有値分解部206は、次式を満たす固有ベクトルeω,t,iを求める。
【0065】
【数8】
【0066】
ここで、λは、一般化固有値分解により求められるi番目に大きな固有値である。Mは、収音装置群10に含まれる収音装置の数である。eは、λに対応する固有ベクトルである。
【0067】
上記式は、Φω,tΦω,t=Kω,tを満たす行列Φω,tを用いた変形により、次式で表され、標準固有値分解の問題となる。
【0068】
【数9】
【0069】
ここで、Φ−Hω,tは、白色化行列とも称される。そして、上記式の左辺は、定常雑音成分でRω,tを白色したもの、即ち定常雑音成分が除去されたものである。
【0070】
伝達関数記憶部208は、伝達関数を記憶する。ここで、伝達関数とは、音源から各収音装置までの伝達特性を示すベクトルである。
【0071】
空間スペクトル算出部210は、固有値分解部206による計算結果及び伝達関数記憶部208により記憶された伝達関数に基づいて、空間スペクトルを計算する。例えば、空間スペクトル算出部210は、小さい方から収音装置数M−音源数N個の固有値に対応した固有ベクトルと、方向θに関する伝達関数ベクトルとを用いて、θ方向から音が到来している度合い、(即ち、空間スペクトル)を計算する。空間スペクトルは、例えば次式により計算される。
【0072】
【数10】
【0073】
ここで、Nは、音源数である。θは、空間スペクトルを計算する方向である。aθは、θ方向に関するステアリングベクトル(即ち、伝達関数)である。
【0074】
周波数重み算出部212は、周波数ごとの空間スペクトルの寄与度に基づく重み(第2の重みに相当)を計算する。MUSIC法をベースとした方法では、各周波数における空間スペクトルからはパワー情報が失われているものの、一般化固有値分解を行ったときに得られる固有値にはパワー成分が含まれており、特にその値の分布は空間的な偏り方を表現している。例えば、ある方向から音が到来している場合には、音源数分の固有値のみが大きくなり、固有値の分布に偏りが生じる。そこで、周波数重み算出部212は、周波数ごとの空間スペクトルの寄与度に基づく重みを、固有値の分布に基づいて計算する。周波数ごとの空間スペクトルの寄与度に基づくは、周波数ごとの最大固有値を固有値の和で除算したものとして、例えば次式により計算される。
【0075】
【数11】
【0076】
周波数情報統合部214は、周波数ごとの空間スペクトルを、周波数重み算出部212により計算された寄与度に基づく重みにより重み付けして統合する。音源がありそうな帯域での重みが高くなるように寄与度に基づく重みによる重み付けを行うことで、方向推定精度を向上させることが可能である。空間スペクトルの統合は、例えば次式により計算される。
【0077】
【数12】
【0078】
なお、上記式では調和平均が用いられているが、その他にも算術平均又は幾何平均等が用いられてもよい。
【0079】
ここで、音声が到来している場合、全ての方向で空間スペクトルの値が大きくなることがある。後段のピーク検出部306において閾値との比較により音源方向が推定されることを考慮すれば、音声が到来している場合に全ての方向で空間スペクトルの値が閾値を超えてしまい、推定誤りが発生するおそれがある。そこで、周波数情報統合部214は、次式のように、統合した空間スペクトルの正規化を行う。
【0080】
【数13】
【0081】
このような正規化により、最小値が0となるので、後段のピーク検出部306において音源と無関係なピークを閾値以下に抑え、推定誤りの発生を防止することが可能となる。ここで、logの底は任意であり、例えばネイピア数が用いられる。
【0082】
閾値更新部304は、GEVD−MUSIC処理部200から出力される空間スペクトルのうち、ピークとして検出するか否かの基準となる閾値を計算する。この閾値により、音源がその方向にないものの、値の小さいピークとなってしまったものを棄却することが可能となる。
【0083】
とりわけ、閾値更新部304は、過去の空間スペクトルの値を用いて閾値を逐次的に更新する。閾値を逐次的に更新することにより、テレビ受像機からの音等の、ある方向から鳴り続けている音に関するピークを棄却することが可能となる。目的音は、音声コマンド又は機器を操作するための発話等の短い音声であるので、長時間続く音を棄却することは、音源方向をより精度よく推定することを可能にする。閾値は、例えば次式により計算される。
【0084】
【数14】
【0085】
ここで、αth、βth及びγthは定数である。また、Θは、スキャンする方向の数である。
【0086】
ピーク検出部306は、GEVD−MUSIC処理部200から出力された空間スペクトルに基づいて、収音装置群10からみた音源方向を推定する。より詳しくは、ピーク検出部306は、空間スペクトルのピークが立つ方向を検出し、その方向を音源方向として推定する。その際、ピーク検出部306は、閾値更新部304から出力された閾値を超えて空間スペクトルのピークが立つ方向を、音源方向として推定する。逐次的に更新される閾値を用いることで、上述した棄却が実現される。
【0087】
<<3.処理の流れ>>
図4は、本実施形態に係る情報処理装置1による音源方向推定処理の流れの一例を示すフローチャートである。図4に示すように、まず、情報処理装置1は、収音装置群10による収音結果を示す音響信号を取得する(ステップS102)。次いで、情報処理装置1は、取得された音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算する(ステップS104)。例えば、情報処理装置1は、音声尤度及びパワーに基づいて第1の重みを計算する。次に、情報処理装置1は、第1の空間相関行列を計算し、第1の重みを適用した第2の空間相関行列を計算し、これらの空間相関行列に基づき固有値分解を行う(ステップS106、S108、S110)。次いで、情報処理装置1は、固有値分解の結果及び伝達関数に基づいて空間スペクトルを計算する(ステップS112)。次に、情報処理装置1は、空間スペクトルの寄与度に基づいて第2の重みを計算する(ステップS114)。次いで、情報処理装置1は、第2の重みにより重み付けして空間スペクトルを統合する(ステップS116)。次に、情報処理装置1は、統合された現在及び過去の空間スペクトルの値を用いて閾値を計算する(ステップS118)。そして、情報処理装置1は、統合された空間スペクトルのうち閾値を超えてピークが立つ方向を、音源方向として推定する(ステップS120)。以上により、処理は終了する。
【0088】
<<4.変形例>>
以下、各種変形例を説明する。ただし、上記説明した事項と重複する内容に関しては、説明を省略する。
【0089】
<4.1.第1の変形例>
第1の変形例では、音響信号の定常性が、音響信号の特徴量に基づいて計算される。より詳しくは、第1の変形例では、定常雑音パワー及び信号パワーの比に基づく重みに代えて、音響信号の特徴量が示す突発性雑音尤度に基づく重みが用いられる。
【0090】
図5は、第1の変形例に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図5に示すように、本変形例に係る情報処理装置1は、図3に示した信号パワー推定部108及び定常雑音パワー推定部110に代えて、音響特徴量変換部114、突発性雑音推定部116及び雑音モデル記憶部118を含む。
【0091】
音響特徴量変換部114は、取得部20により取得された時間領域の音響信号を、音響特徴量に変換する。音響特徴量は、例えば40次元のメルフィルタバンクの適用により得られる。
【0092】
突発性雑音推定部116は、音響特徴量変換部114により変換された音響特徴量に基づいて、フレーム内の音響信号に含まれる音の突発性雑音らしさ(即ち、突発性雑音尤度)を計算する。突発性雑音推定部116は、例えば雑音モデル記憶部118に記憶された雑音モデルに音響特量を入力することで、突発性雑音尤度を計算する。
【0093】
雑音モデル記憶部118は、雑音モデルを記憶する。例えば、雑音モデル記憶部118は、予めDNNにより学習された雑音モデルを記憶する。
【0094】
重み決定部112は、音声尤度及び突発性雑音尤度に基づいて、第2相関行列計算部204において用いられる重みを計算する。重み決定部112は、上記数式2と同様に、音声尤度に基づく重みと突発性雑音尤度に基づく重みの積により、重みを計算する。
【0095】
重み決定部112は、突発性雑音尤度に基づく重みを、突発性雑音尤度がより高い突発性雑音らしさを示すほど低くなるよう計算する。これにより、第2の空間相関行列の計算に用いられた区間の音響信号に目的音と重なっている可能性が高い定常性のある雑音成分が含まれるほど、より大きな重みが第2の空間相関行列に適用されることとなり、推定精度を向上させることが可能となる。突発性雑音尤度に基づく重みは、例えば次式により計算される。
【0096】
【数15】
【0097】
ここで、pは、フレームtにおける突発性雑音尤度である。また、pThは、突発性雑音尤度の閾値である。
【0098】
本変形例によれば、パワーとしては小さくても特徴がある雑音を精度よく判定することが可能である。定常雑音パワー及び信号パワーの比に基づく重みが用いられる場合、雑音モデルは不要である。一方で、本変形例の場合、雑音モデルにより精度よく雑音を判定することが可能となる。
【0099】
<4.2.第2の変形例>
第2の変形例では、音源方向の推定のために、空間スペクトルに加えて指向性パターンが用いられる。指向性パターンとは、各方向から音が到来している度合いであり、具体的には、音源方向に対する感度の高い空間フィルタに対応する方向とゲインとの対応関係データである。
【0100】
図6は、第2の変形例に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図6に示すように、本変形例に係る情報処理装置1は、図3に示した構成に加えて、GEVD−MUSIC処理部200に指向性パターン算出部216及び周波数情報統合部218を含み、さらにピーク検出部308及び音源方向推定部310を含む。
【0101】
指向性パターン算出部216は、一般化固有値分解の計算結果に基づいて指向性パターンを計算する。指向性パターン算出部216は、各方向から音が到来している度合いを、最大固有値に対応した固有ベクトル及び伝達関数ベクトルを用いて計算することで、指向性パターンを計算する。ある方向から音が到来している度合いは、例えば次式により計算される。
【0102】
【数16】
【0103】
周波数情報統合部218は、周波数ごとの指向性パターンの統合を行う。例えば、周波数情報統合部218は、周波数情報統合部214と同様に、周波数重み算出部212により計算された寄与度に基づく重みにより指向性パターンを重み付けして統合する。
【0104】
ピーク検出部308は、GEVD−MUSIC処理部200から出力された指向性パターンのピークを検出する。そして、ピーク検出部308は、検出したピークを取る方向を、音源方向として出力する。
【0105】
音源方向推定部310は、ピーク検出部306及びピーク検出部308からの出力結果を総合して、音源方向を推定する。例えば、音源方向推定部310は、ピーク検出部306から出力された音源方向とピーク検出部308から出力された音源方向とで重複するもの、即ち空間スペクトル及び指向性パターンの双方でピークが立つ方向を、音源方向として推定する。なお、両者は必ずしも一致するとは限らないため、重複の判定にずれが許容されてもよい。例えば、6度程度のずれが許容され得る。
【0106】
本変形例によれば、空間スペクトルにおいて又は指向性パターンにおいて、たまたまピークがたった部分を棄却することで、音源方向の推定精度を向上させることが可能である。
【0107】
<4.3.第3の変形例>
第3の変形例では、情報処理装置1自身が音声又は音楽等の音を再生する場合に、その再生信号が雑音として第2の空間相関行列の計算に加味される。
【0108】
図7は、第3の変形例に係る情報処理装置1の論理的な構成の一例を示すブロック図である。図7に示すように、本変形例に係る情報処理装置1は、図2に示した構成に加えて再生装置60を含む。再生装置60は、再生信号に従って音を再生するスピーカ等の装置である。取得部20は、再生装置60から再生信号を取得する。
【0109】
図8は、第3の変形例に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図8に示すように、第3の変形例に係る情報処理装置1は、図3に示した構成に加えて、伝達特性推定部312を含む。
【0110】
伝達特性推定部312は、取得部20により取得された音響信号及び再生信号に基づいて、再生装置60から収音装置群10に空気伝搬により到達する音の伝達特性を推定する。再生装置60と収音装置群10との位置関係が既知且つ不動である場合、伝達特性推定部312は、事前に計測された結果を記憶してもよい。
【0111】
GEVD−MUSIC処理部200は、収音装置群10により収音される音であって、再生装置60により再生される音の再生信号に基づいて第2の空間相関行列を計算する。詳しくは、第2相関行列計算部204は、伝達特性推定部312により推定された伝達特性にさらに基づいて、第2の空間相関行列を計算する。本変形例に係る第2の空間相関行列は、例えば次式により計算される。
【0112】
【数17】
【0113】
ここで、sω,tは、時刻tにおける周波数ωの再生信号と推定された伝達特性との積である。
【0114】
本変形例によれば、音響エコーキャンセリングと同様に、再生信号を抑圧した状態で音源方向を推定することが可能となる。
【0115】
<4.4.第4の変形例>
第4の変形例では、雑音源の移動性が加味される。
【0116】
図9は、第4の変形例に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図9に示すように、本変形例に係る情報処理装置1は、図3に示した構成に加えて、音源種類推定部100に移動音源推定部120を含む。
【0117】
移動音源推定部120は、音源の移動性を推定する。詳しくは、移動音源推定部120は、過去にピーク検出部306から出力された音源方向に基づいて音源のトラッキングを行うことで、音源の移動音源らしさ、即ち移動性を推定する。音源のトラッキングには、例えばパーティクルフィルタが用いられる。そして、移動音源推定部120は、音源の移動性に基づく重みを、連続値(例えば、0〜1)で計算する。音源の移動性に基づく重みは、例えば次式により計算される。
【0118】
【数18】
【0119】
ここで、αtは、音源の移動性に基づく重みである。Lは、トラッキングで接続を予用する最大の角度ずれである。θtは、フレームtにおいて推定された音源方向である。θt0は、移動音源らしさを判定する対象区間の開始時刻tにおいて推定された音源方向である。上記式によれば、音源の移動性に基づく重みは、移動音源らしさを判定する対象区間の開始時刻において推定された音源方向との乖離度(即ち、何度ずれているか)に基づいて計算される。
【0120】
重み決定部112は、音源の移動音源らしさに基づく重みにさらに基づいて、第2相関行列計算部204において用いられる重みを計算する。重みは、例えば次式により計算される。
【0121】
【数19】
【0122】
本変形例によれば、時間的に定常であっても空間的に非定常な雑音の影響も除外することが可能である。そのような雑音源としては、例えば自動掃除ロボット等が挙げられる。
【0123】
<4.5.第5の変形例>
第5の変形例では、第2の空間相関行列を用いた音声強調フィルタにより音声が強調された音響信号が生成される。
【0124】
図10は、第5の変形例に係る情報処理装置1の論理的な構成の詳細な一例を示すブロック図である。図10に示すように、本変形例に係る情報処理装置1は、図3に示した構成に加えて、音声強調フィルタ生成部314及び音声強調部316を含む。
【0125】
音声強調フィルタ生成部314は、ピークが検出された方向の音を強調するフィルタを生成する。なお、多チャンネル出力のために、フィルタは行列で表現される。
【0126】
例えば、音声強調フィルタ生成部314は、第2相関行列計算部204、伝達関数記憶部208及びピーク検出部306からの出力(図中の一点鎖線)に基づいて、MV(Minimum Variance)法を用いて次式によりフィルタを生成してもよい。
【0127】
【数20】
【0128】
他にも、音声強調フィルタ生成部314は、固有値分解部206からの出力(図中の二点鎖線)に基づいて、次式によりWienerフィルタを生成してもよい。
【0129】
【数21】
【0130】
ここで、Eω,tは、時刻tにおける周波数ωの一般化固有値分解をしたときの固有ベクトルを並べた行列である。Λω,tは、固有値を対角成分に並べた行列である。
【0131】
音声強調部316は、周波数変換部302から出力された周波数成分の信号に音声強調フィルタ生成部314により生成された音声強調フィルタを適用することで、定常雑音成分を抑圧した信号である音声強調信号を生成する。
【0132】
例えば、音声強調フィルタがMV法を用いて生成された場合、音声強調信号は次式により計算される。
【0133】
【数22】
【0134】
また、音声強調フィルタがWienerフィルタである場合、音声強調信号は次式により計算される。
【0135】
【数23】
【0136】
本変形例によれば、定常雑音成分を抑圧した音声強調信号を生成することが可能である。
【0137】
以上、各種変形例を説明した。
【0138】
上述した各種変形例は、適宜組み合わせることが可能である。例えば、図3に示した構成と図5に示した構成とを組み合わせることで、重み決定部112は、音声尤度に基づく重み、定常雑音パワー及び信号パワーに基づく重み、並びに突発性雑音尤度に基づく重みに基づいて、第1の重みを計算することが可能となる。
【0139】
<<5.実験結果>>
以下では、提案手法と比較手法との比較実験の結果を説明する。ここで、提案手法とは、図2〜図4を参照して上記説明した、本実施形態に係る情報処理装置1による音源方向の推定を指す。比較手法とは、定常雑音推定を行わない手法を指し、より具体的には、図3に示した情報処理装置1の構成のうち、音源種類推定部100から信号パワー推定部108及び定常雑音パワー推定部110を省略した構成を有する。なお、重み決定部112の出力は、音声の場合は0で非音声の場合は1となる。
【0140】
図11及び図12は、提案手法と比較手法との比較実験の実験設定を説明するための図である。図11に示すように、収音装置群10を基準として、−33度の方向に雑音源402があり、−54度の方向に目的音源404がある。雑音は、皿洗いの音であり、目的音は、発話者の話声である。また、収音装置群10は、8個の収音装置を有する。図12では、収音装置群10から出力される音響信号の波形412が示されている。区間414は、雑音源402からの音に対応し、区間416は、目的音源404からの音に対応する。
【0141】
図13は、比較手法による実験結果を示す図である。図13では、波形412の時間変化に対応する、比較手法により計算される空間スペクトルの時間変化420及び音源方向の推定結果の時間変化430が示されている。空間スペクトルの時間変化420に関しては、色の違いが、各方向において音がある/ないを表現している。音源方向の時間変化430に関しては、プロットに対応する方向が音源方向の推定結果を表現している。符号422及び432は区間414の雑音に対応する部分であり、符号424及び434は区間416の目的音に対応する部分である。
【0142】
図14は、提案手法による実験結果を示す図である。図14では、波形412の時間変化に対応する、提案手法により計算される空間スペクトルの時間変化440及び音源方向の推定結果の時間変化450が示されている。空間スペクトルの時間変化440に関しては、色の違いが、各方向において音がある/ないを表現している。音源方向の時間変化450に関しては、プロットに対応する方向が音源方向の推定結果を表現している。符号442及び452は区間414の雑音に対応する部分であり、符号444及び454は区間416の目的音に対応する部分である。
【0143】
図14に示すように、提案手法によれば、雑音源の方向も目的音源の方向も正しく推定されている。
【0144】
一方、図13に示したように、比較手法によれば、符号434に示すように目的音源の方向が正しく推定されていない。これは、区間414における皿の音を雑音成分として第2の空間相関行列を計算したために、区間416における目的音を正しく検出できなかったことに起因すると考えられる。また、検出できていないだけでなく、誤った方向に目的音源の方向が推定されている。さらに、符号432に示すように雑音源の方向も正しく推定されていない。これは、波形412の区間よりも前の区間に皿の音が含まれており、それを雑音成分とした一般化固有値分解が行われたことで区間414における皿の音が抑圧されたことに起因すると考えられる。
【0145】
<<6.ハードウェア構成例>>
最後に、図15を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図15は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図15に示す情報処理装置900は、例えば、図2及び図7にそれぞれ示した情報処理装置1を実現し得る。本実施形態に係る情報処理装置1による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
【0146】
図15に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
【0147】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図2及び図7に示す取得部20及び制御部50を形成し得る。
【0148】
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0149】
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば、図2及び図7に示す収音装置群10を形成し得る。
【0150】
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図2及び図7に示す出力部30を形成し得る。また、出力装置907は、例えば、図7に示す再生装置60を形成し得る。
【0151】
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図2及び図7に示す記憶部40を形成し得る。
【0152】
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
【0153】
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
【0154】
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、図2及び図7に示す取得部20及び出力部30を形成し得る。
【0155】
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
【0156】
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
【0157】
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
【0158】
<<7.まとめ>>
以上、図1〜図15を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置1は、収音装置群による収音結果を示す音響信号を取得し、音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、第1の重みを第2の空間相関行列に適用する。これにより、第2の空間相関行列の計算のために採用された雑音区間の適切さが、定常雑音を観察した信号である度合により評価され、その評価が第2の空間相関行列の計算に反映されることとなる。よって、どの区間を雑音空間として採用されるかに過度に依存することが防止され、音源方向を推定する際の推定精度を向上させることが可能となる。
【0159】
とりわけ、本実施形態では、情報処理装置1は、音響信号に音声が含まれる度合、及び音響信号の定常性に基づいて第1の重みを計算する。これにより、目的音声成分及び突発性雑音が第2の空間相関行列の計算に用いられないようにすることが可能となり、その結果、音源方向の推定性能の劣化を防止することが可能である。また、情報処理装置1は、適切に定常雑音の影響を抑圧した状態で、音源方向を推定することが可能となる。
【0160】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0161】
例えば、上記実施形態では、目的音は音声であるものとしたが、本技術はかかる例に限定されない。例えば、特定の機械の作動音、動物の鳴き声等が目的音とされ、音源方向が推定されてもよい。
【0162】
また、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図2に示した情報処理装置1の機能構成例のうち、取得部20、記憶部40及び制御部50が、収音装置群10及び出力部30とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
【0163】
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
【0164】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0165】
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
収音装置群による収音結果を示す音響信号を取得する取得部と、
前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、
を備える情報処理装置。
(2)
前記制御部は、前記第1の重みを適用した雑音空間相関行列及び推定対象の前記音響信号の空間相関行列に基づく一般化固有値分解により得られる固有値に基づいて、前記収音装置群からみた音源方向を推定する、前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記一般化固有値分解の対象となる前記第1の重みを適用した前記雑音空間相関行列を、過去の前記第1の重みを適用した前記雑音空間相関行列に基づいて逐次的に更新する、前記(2)に記載の情報処理装置。
(4)
前記制御部は、前記一般化固有値分解の計算結果に基づいて計算された空間スペクトルを前記固有値に基づく第2の重みにより重み付けして統合し、統合された前記空間スペクトルのピークが立つ方向を前記音源方向として推定する、前記(2)又は(3)に記載の情報処理装置。
(5)
前記制御部は、過去の空間スペクトルの値を用いて逐次的に更新される閾値を超えて空間スペクトルのピークが立つ方向を前記音源方向として推定する、前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記一般化固有値分解の計算結果に基づいて各方向から音が到来している度合いを示す指向性パターンを計算し、前記空間スペクトル及び前記指向性パターンの双方でピークが立つ方向を前記音源方向として推定する、前記(4)又は(5)に記載の情報処理装置。
(7)
前記音源方向は、音声の到来方向である、前記(2)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記第1の重みは、連続値である、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記制御部は、前記音響信号に音声が含まれる度合に基づいて前記第1の重みを計算する、前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記制御部は、前記音響信号の定常性に基づいて前記第1の重みを計算する、前記(1)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記定常性は、前記音響信号のパワーに基づいて計算される、前記(10)に記載の情報処理装置。
(12)
前記定常性は、前記音響信号の特徴量に基づいて計算される、前記(10)又は(11)に記載の情報処理装置。
(13)
前記制御部は、音源の移動性を推定し、推定結果に応じて前記第1の重みを計算する、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、収音装置群により収音される音であって、再生装置により再生される音の再生信号に基づいて前記雑音空間相関行列を計算する、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記雑音空間相関行列に基づいて目的音が強調された音響信号を生成する、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
収音装置群による収音結果を示す音響信号を取得することと、
取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みをプロセッサにより計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用することと、
を含む情報処理方法。
(17)
コンピュータを、
収音装置群による収音結果を示す音響信号を取得する取得部と、
前記取得部により取得された前記音響信号が定常雑音を観測した信号である度合に応じた第1の重みを計算し、前記第1の重みを雑音信号から得られる空間相関行列である雑音空間相関行列に適用する制御部と、
として機能させるためのプログラム。
【符号の説明】
【0166】
1 情報処理装置
2 ユーザ
3 テレビ受像機
4 エアコンディショナー
10 収音装置群
20 取得部
30 出力部
40 記憶部
50 制御部
60 再生装置
100 音源種類推定部
102 音響特徴量変換部
104 音声非音声推定部
106 音声モデル記憶部
108 信号パワー推定部
110 定常雑音パワー推定部
112 重み決定部
114 音響特徴量変換部
116 突発性雑音推定部
118 雑音モデル記憶部
120 移動音源推定部
200 GEVD−MUSIC処理部
202 第1相関行列計算部
204 第2相関行列計算部
206 固有値分解部
208 伝達関数記憶部
210 空間スペクトル算出部
212 周波数重み算出部
214 周波数情報統合部
216 指向性パターン算出部
218 周波数情報統合部
302 周波数変換部
304 閾値更新部
306 ピーク検出部
308 ピーク検出部
310 音源方向推定部
312 伝達特性推定部
314 音声強調フィルタ生成部
316 音声強調部
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【国際調査報告】