(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】2019506050
(43)【公表日】20190228
(54)【発明の名称】カスタム化/個人化頭部関連伝達関数を生成する方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20190201BHJP
【FI】
   !H04S7/00 310
【審査請求】有
【予備審査請求】未請求
【全頁数】17
(21)【出願番号】2018534544
(86)(22)【出願日】20161228
(85)【翻訳文提出日】20180629
(86)【国際出願番号】SG2016050621
(87)【国際公開番号】WO2017116308
(87)【国際公開日】20170706
(31)【優先権主張番号】10201510822Y
(32)【優先日】20151231
(33)【優先権主張国】SG
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】500035487
【氏名又は名称】クリエイティブ テクノロジー リミテッド
【氏名又は名称原語表記】CREATIVE TECHNOLOGY LTD
【住所又は居所】シンガポール シンガポール 609921 クリエイティブ リソース インターナショナル ビジネス パーク 31
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100088694
【弁理士】
【氏名又は名称】弟子丸 健
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100151987
【弁理士】
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】リー テック シー
【住所又は居所】シンガポール 266224 シンガポール ドリードン リードン ハイツ 13 #23−44
(72)【発明者】
【氏名】チョンガン クリストファー
【住所又は居所】シンガポール 120412 シンガポール コモンウェルス アベニュー ウェスト 412 #02−3043
(72)【発明者】
【氏名】ヒー デズモンド
【住所又は居所】シンガポール 730744 シンガポール ウッドランズ サークル 744 #11−770
(72)【発明者】
【氏名】レスリー ギース マーク ベンジャミン
【住所又は居所】イギリス エスイー26 4エイエル ロンドン ミドルセックス アダムスリル ロード 7
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162CA26
5D162CD07
5D162EG03
(57)【要約】
個人化頭部関連伝達関数(HRTF)を生成する方法が提供される。この方法は、ポータブルデバイスを用いて耳の画像を捕捉するステップと、捕捉された画像を自動スケーリングして、耳の物理的幾何形状を決定するステップと、決定された耳の物理的幾何形状に基づいて、個人化HRTFを取得するステップとを含むことができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
個人化頭部関連伝達関数(HRTF)を生成する方法であって、
ポータブルデバイスを用いて耳の画像を捕捉するステップと、
前記捕捉された画像を自動スケーリングして、前記耳の物理的幾何形状を決定するステップと、
前記決定された前記耳の物理的幾何形状に基づいて、個人化HRTFを取得するステップと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、捕捉された画像に基づいてカスタム化/個人化頭部関連伝達関数(HRTF)を生成する方法に関する。
【背景技術】
【0002】
正確な対話型3D空間オーディオレンダリングは、個人化頭部関連伝達関数(HRTF)を必要とする。
【0003】
伝統的には、このような個人化HRTFを取得するために、ユーザは、オーディオ信号が無響室内の異なる場所から放出される状態で、無響室内で約半時間の間、動かずに座っている必要がある。ユーザによって聴覚的に知覚されるオーディオ信号を捕捉するために、ユーザの耳内にマイクロフォンが配置される。また、無響室、オーディオ信号源、およびマイクロフォン応答などの要因を考慮する必要がある。このような応答はスプリアス応答と考えられることができ、HRTFにその後に変換されることができる頭部関連インパルス応答(HRIR)を取得するために、このようなスプリアス応答を取り除く必要性がある場合がある。
【0004】
従来技術の技法は、上記の手法を簡略化するために出現してきた。具体的には、無響室の必要性を取り除き、上述のスプリアス応答などの問題に対処することが望ましい。
【0005】
1つのこのような従来技術の技法は、「P-HRTF: Efficient Personalized HRTF Computation for High-Fidelity Spatial Sound, Meshram et al. Proc. of IMAR 2014 (http://gamma.cs.unc.edu/HRTF/)」である。この従来技術の技法は、複数の写真から詳細な耳モデルを再構成し、音響シミュレーションを行ってHRTFを得る。高密度に捕捉された写真のセット(SLRキヤノン60D 8MPを用いて、推奨される15度間隔で20数枚の写真)、およびかなりの計算能力が必要になる。
【0006】
他のこのような従来技術の技法は、「Selection of Head-Related Transfer Function through Ear Contour Matching for Personalized Binaural Rendering. POLITECNICO DI MILANO. Master of Science in Computer Engineering. Dalena Marco. Academic Year 2012/2013」である。この従来技術の技法は、耳および音響効果を物理的にモデル化する代わりに、既存のデータベースを用いた画像ベースのマッチングを行うことが可能となることができることを企図する。既存のデータベースは、対応するHRTFに関連付けられた画像(例えば写真)の集合を含むことができる。画像を所与として、対応するHRTFを取得するように、所与の画像に対するベストマッチ(既存のデータベース内の画像の集合と比べた)を見出すために、一般化ハフ変換が用いられることができる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし上記で論じられた手法/技法は、計算能力の点から多くのリソースが必要になるであろうことが理解できる。さらに、上記で論じられた手法/技法は、ユーザフレンドリおよび/または効率的なやり方での個人化HRTFの作成を容易にすることができない。
従って、上記の問題に対処する解決策をもたらすことが望ましい。
【課題を解決するための手段】
【0008】
本開示の態様によれば、個人化頭部関連伝達関数(HRTF)を生成する方法が提供される。この方法は、
(1)ポータブルデバイスを用いて耳の画像を捕捉するステップと、
(2)捕捉された画像を自動スケーリングして、耳の物理的幾何形状を決定するステップと、
(3)決定された耳の物理的幾何形状に基づいて、個人化HRTFを取得するステップと
を含むことができる。
本開示の実施形態は、下記の図面を参照して本明細書の以下で述べられる。
【図面の簡単な説明】
【0009】
【図1】本開示の実施形態による、カメラを有するスマートフォンなどのポータブルデバイスを用いて捕捉された画像から、個人化/カスタム化頭部関連伝達関数(HRTF)を作成/生成する方法を示す図である。
【図2a】本開示の実施形態による、複数のサンプルを用いてトレーニングされることができる、複数の制御点を有するアクティブ形状モデルを示す図である。
【図2b】本開示の実施形態により、図2aの複数のサンプルは、第1のサンプルおよび第2のサンプルを含むことができることを示す図である。
【図2c】本開示の実施形態により、ユーザの耳の形状に適合された図2aの制御点を示す図である。
【発明を実施するための形態】
【0010】
本開示は、カメラを有するスマートフォンなどのポータブルデバイスを用いて捕捉された画像から、個人化/カスタム化頭部関連伝達関数(HRTF)を作成/生成する方法100(図1を参照してさらに詳しく示されるような)に関する。本開示は、ハフ変換に関した従来技術の技法は、複数の写真からの詳細な耳モデルの再構成に関する従来技術の技法、および無響室の使用が関わる従来の手法と比べて、最も簡単であることを企図する。本開示はさらに、ユーザフレンドリおよび/または効率的なやり方で、個人化HRTFの作成/生成を少なくとも容易にするように、ハフ変換に関した従来技術の技法をさらに簡略化する必要性を企図する。
【0011】
図1を参照すると、本開示の実施形態による、個人化/カスタム化HRTFを作成/生成する方法100が示される。具体的には、個人化/カスタム化HRTFは、ポータブルデバイスを用いて捕捉された画像から作成/生成されることができる。
【0012】
方法100は、画像捕捉ステップ102、基準決定ステップ104、分析ステップ106、および個人化ステップ108を含むことができる。
【0013】
画像捕捉ステップ102において、画像捕捉デバイスを有するポータブルデバイスを用いて、耳の少なくとも1つの画像が捕捉されることができる。例えばポータブルデバイスは、カメラを有するスマートフォンに対応しることができる。
【0014】
基準決定ステップ104において、捕捉された画像に対するスケールファクタが決定されることができる。スケールファクタは、手動測定に依存する必要なしに決定されることが好ましい。スケールファクタは、以下でさらに詳しく論じられるように、自動スケーリングのための基礎として用いられることができる。
【0015】
一実施形態において、スケールファクタは、目の間隔(すなわち瞳孔間距離)に基づいて決定されることができる。別の実施形態において、スケールファクタは、平均の耳珠長さに基づいて決定されることができる。さらに別の実施形態において、スケールファクタは、画像捕捉デバイスのフォーカスポイントに基づいて決定されることができる。さらなる実施形態においてスケールファクタは、基準被写体(例えば名刺または缶)、および/または既知の焦点長さを有する深度カメラに基づいて決定されることができる。
【0016】
目の間隔に基づくスケールファクタの決定に関して、ユーザは2つの画像を捕捉することができる。1つの画像は、ユーザの目が検出されることができる、ユーザが彼自身/彼女自身を撮った写真(例えばおおよそ腕の長さの半分だけ離れてポータブルデバイスで撮った自分撮り)とすることができる。もう1つの画像は、例えば第1の画像が捕捉された後に、ユーザに彼/彼女の頭部を回転させることによって撮られた、ユーザの1つの耳の写真とすることができる。具体的には、ユーザが、ユーザの目が検出されることができる、彼自身/彼女自身の自分撮り(すなわち第1の画像)を撮った後、ユーザは彼/彼女の頭部を回転して彼/彼女の耳の画像(すなわち、画像捕捉ステップ102において捕捉される上述の耳の画像に対応することができる第2の画像)を捕捉することができ、ポータブルデバイスは両方の画像のための位置に保持される(すなわち自分撮りが撮られたときのポータブルデバイスの位置は、第2の画像を捕捉するために維持される)。あるいは、走査時にポータブルデバイスとユーザの頭部との間の距離を実質的に一定に保ちながら、ポータブルデバイスを円弧に走査して(すなわち目から耳へ、または耳から目へ)、目と耳の両方の画像を捕捉することも可能である。例えば、ユーザの目が検出されることができる彼自身/彼女自身の自分撮り(すなわち第1の画像)を撮る間、ポータブルデバイスはユーザによって腕の長さにおいて保持することができ、自分撮りが撮られた後、ユーザは彼/彼女の耳の画像(すなわち第2の画像)を捕捉するために、ポータブルデバイスを彼/彼女の頭部の側方に、同じ腕の長さに(第1の画像が捕捉されたときに従って)保ちながら走査することができる。物理的な目の間隔は、成人に対して通常おおよそ6.5cmであることが企図される(子供に対する目の間隔は異なることができることが理解されることができる)。従って、スケールファクタが導出されることができる。例えば、第1の画像に対して、2つの目の間の間隔は、画像的に50画素とすることができる。従って、画像的に50画素は、物理的分離における6.5cmに対応しることができる(すなわち、50画素は、例えば物理的寸法/測定値の観点では6.5cmに対応しることができる)。50画素:6.5cmの画像寸法と物理的寸法の比(すなわち第1の画像に基づく)を用いて、耳の画像(すなわち第2の画像)を物理的寸法に換算することが可能となることができる。
【0017】
平均の耳珠長さに基づくスケールファクタの決定に関して、耳珠長さは、異なる耳にわたって比較的一定していることが企図される。従って、耳珠長さは、目の間隔に関する前の議論に従って類似のやり方で基準として用いられることができる(すなわち既知/標準の耳珠長さに基づく、耳の画像から物理的寸法への換算)。
【0018】
画像捕捉デバイスのフォーカスポイントに基づくスケールファクタの決定に関して、画像捕捉デバイス(例えばカメラ)は、オートフォーカス機能を有することができることが企図される。従って、ユーザが画像捕捉デバイスを用いて彼/彼女の耳の画像を捕捉するとき、画像捕捉デバイスは、ユーザの耳にオートフォーカスすることができる。オートフォーカスは、レンズから被写体(すなわちユーザの耳)までの距離に基づく。本開示はスケールファクタを決定するためには、レンズから耳までの距離と、焦点長さ(すなわちレンズの視野)とを知れば十分であることを企図する。
【0019】
分析ステップ106において、耳の造作および幾何学的特性は、耳の画像に基づいて、アクティブ形状モデル(ASM)を用いて検出されることができる。ASM(1995年にTim CootesおよびChris Taylorによって開発された)は、新たな画像内の被写体の例(例えば捕捉されたユーザの耳の画像)にフィットするように反復して変形し、形状は点分布モデル(PDM)によって制約される、被写体の形状(例えば耳の形状)の分布モデルに対応することが一般に知られている。この点に関して耳甲介の長さ、耳珠の長さ、耳の幅および/または高さなどの画像ベースの幾何学的特性(例えば画素の観点での)は、PDMに従って変形されることができる制御点から抽出/決定されることができる。従って、制御点は、画像捕捉ステップ102において捕捉された画像(すなわち耳の画像)に基づいて、耳の形状に適合することができる。制御点は、後に図2を参照してさらに詳しく論じられる。
【0020】
個人化ステップ108において、個人化HRTFは、分析ステップ106で決定されたユーザの耳の画像ベースの幾何学的特性(例えば画素の観点での)と、基準決定ステップ104で決定されたスケーリングファクタとに基づいて導出/決定されることができる。これは、例示的シナリオに関連して後にさらに詳しく論じられる。
【0021】
本開示は、ユーザの耳の物理的寸法が画像ベースの幾何学的特性(例えば画素の観点での)と、スケーリングファクタとに基づいて導出されることができることを企図する。このような物理的寸法は、個人化HRTFを導出/決定するための基礎とすることができる。
【0022】
さらに、本開示は、ユーザの耳の物理的幾何形状が分析ステップ106または個人化ステップ108において決定されることができることを企図する。
【0023】
図2aは、図1を参照して先に論じられた、複数の制御点を有するアクティブ形状モデル200を示す。例えば、アクティブ形状モデル200は、第1の制御点200a、第2の制御点200b、第3の制御点200c、第4の制御点200d、および第5の制御点200eを含むことができる。示されるように、アクティブ形状モデル200は、耳の形状に対応することができる。具体的には、複数の制御点は、耳の形状に対応するように配置されることができる。アクティブ形状モデル200は、複数のサンプルを用いたトレーニングに基づいて導出されることができる。サンプルは、複数の耳画像(すなわち2つ以上の耳の画像)に対応することができる。サンプルは、異なる対象から(すなわち異なる人々から)取得されることが好ましい。例えば、アクティブ形状モデル200は、20個の異なる対象(すなわち20個の異なる耳)からトレーニングされることができる。例示的シナリオにおいて、アクティブ形状モデル200は、サンプルのそれぞれにおいて、一貫したやり方で制御点を位置決めすることによって導出されることができる。
【0024】
具体的には、図2bを参照して、図2aで述べられた複数のサンプルは、第1のサンプル201aおよび第2のサンプル201bを含みることができる。制御点のそれぞれは、耳のそれぞれの異なる場所に一貫して位置決めされることができる。例えば、制御点の1つ(例えばラベル16)は、サンプル201a/201bのそれぞれに示される耳の1つの場所(例えば耳たぶ)に、一貫して位置決めされることができる。各制御点に対してそのようにすることによって、サンプルにわたって耳の実質的に同一の場所(例えば耳たぶ)に位置決めされる同じ制御点(例えばラベル16)に基づいて、平均が取得されることができることが理解されることができる。従って、複数のサンプルを用いたトレーニングから、耳の平均の形状が導出されることができる。この点に関して、アクティブ形状モデル200は、平均の耳(すなわち複数のサンプルを用いたトレーニングに基づく)を表す汎用テンプレートと、それの基礎をなすPDMとに類似するものとなることができる。このような汎用テンプレートは、新たな画像(すなわち画像捕捉ステップ102で捕捉された新たな耳の画像)に対する反復した変形の基本となりることができる。さらに、基礎をなすPDMは、同時に、アクティブ形状モデル200をトレーニングするときに導出される。具体的には、新たな画像(すなわち画像捕捉ステップ102の間に捕捉される新たな耳の画像)に基づく、制御点の分布の反復した変形(すなわちアクティブ形状モデル200に従った制御点の位置の偏位)の制限は、図2cを参照してさらに詳しく論じられるように、複数のサンプルを用いてトレーニングされたPDMによって制約されることができる。
【0025】
本開示の実施形態によれば、ポータブルデバイスは画面(図示せず)を含むことができ、アクティブ形状モデル200の制御点は、画面に表示されるグラフィックスユーザインターフェース(GUI)を通じて提示されることができる。示されるように、アクティブ形状モデル200は、複数の制御点200a/200b/200c/200d/200eを含むことができる。
【0026】
図2cは本開示の実施形態による、ユーザの耳の形状(すなわち画像捕捉ステップ102の間に捕捉される上述の耳の画像)に適合された、図2aのアクティブ形状モデル200を示す。
【0027】
制御点は、図2aで先に論じられた上述の新たな画像に対応することができる。1つの例示的応用例において、導出されたアクティブ形状モデル200(すなわち先に論じられた複数のサンプルを用いたトレーニングに基づく)は、ポータブルデバイスの画面に表示されることができ、ポータブルデバイスを用いるユーザが、彼/彼女の耳の画像(すなわち新たな画像)を捕捉するようにポータブルデバイスを位置決めするときに、画面の少なくとも一部分は、ユーザの耳のリアルタイム画像202を表示することができる。リアルタイム画像202は、どのようにユーザがポータブルデバイスを位置決めするかに従って変化することができることが理解されることができる。従って、アクティブ形状モデル200は、それに従って反復して変形することができる。すなわち、制御点(例えば第1から第5の制御点200a/200b/200c/200d/200e)は、画面に表示されるユーザの耳の画像にマッチするように、反復して変化することができる。従って、例えば、制御点は、制御点がユーザの耳の画像に実質的に重なり合うように、位置において偏位することが視覚的に知覚されることができる。具体的には、図2bに示されるように、アクティブ形状モデル200は、ユーザの耳の画像に実質的に重なり合うようになる。より具体的には、図2aに示されるように、アクティブ形状モデル200の制御点は、ユーザの耳の形状に適合することができる。従って、アクティブ形状モデル200の制御点200a/200b/200c/200d/200eの位置は、ユーザの耳の形状の輪郭を描くように反復して変化されることができる(すなわちユーザの耳のリアルタイム画像202によって示されるように)。
【0028】
画面に現在表示されている画像が捕捉のために適切かどうかを示すために、安定のインジケーション(例えば「ビープ音」などのオーディオフィードバックの形での)が提供されることができるのが好ましい。例えば、アクティブ形状モデル200の制御点が、位置における変化を止めた(すなわち動きを停止した)とき、安定のインジケーションが提供されることができる。すなわち、アクティブ形状モデル200は、ユーザの耳の形状に実質的に適合したと考えられることができる(すなわちユーザの耳のリアルタイム画像202に従って)。このようにして、何らかの形の「適合度」の測度が提供されることができることが理解されることができる。さらに、このようにして、画像捕捉ステップ102での画像捕捉のための準備において、ユーザがポータブルデバイスを位置決めするのに従って、ユーザの耳のリアルタイム検出を行うことも可能である。
【0029】
さらに、本開示は、ユーザの耳に似た画像(すなわち実際にはユーザの耳の画像ではない)が捕捉される、「スプリアス」画像捕捉を避けるように、耳検出性能を改善することが望ましいことを企図する。
【0030】
従って、本開示の実施形態によれば、ポータブルデバイスが適切に位置決めされたかどうかを示すために、さらなるフィードバック信号(すなわち上述の安定のインジケーションに加えて)が提供されることができる。一例において、ポータブルデバイスが適切に位置決めされたかどうかを示すために、ポータブルデバイスによって運ばれるジャイロスコープ/加速度計および/または磁気センサなどの運動センサからのフィードバック信号が提供されることができる。
【0031】
あるいは、ポータブルデバイスによって運ばれる画像捕捉デバイスに関連付けられたフォーカス距離は、耳検出性能の改善に関連したパラメータとして用いられることができる。具体的にはポータブルデバイスによって運ばれる画像捕捉デバイスに関連付けられたフォーカス距離は、対象の被写体の、捕捉デバイスまでの距離を決定するために用いられることができる。本開示は耳(すなわち対象の被写体)と捕捉デバイスとの間の距離は実際には非常に近く(例えば約10cm離れる)、それによりフォーカス距離がおよそ10cmのときにのみ、捕捉された画像(例えばカメラビデオストリーム)内の耳の存在を考慮する必要がある(例えば2から20cmまでのフォーカス距離のみが考慮される必要がある)ことを企図する。従って、1つの場合において、画像捕捉デバイスの焦点が例えば1.2メートルであるとき、その場合の画像捕捉デバイスによって捕捉されたカメラビデオストリームにおいて、対象の被写体は適切な耳画像に対応しないことが問題なく想定されることができる。
【0032】
上記は本明細書の以下で、本開示の実施形態による例示的シナリオに基づく関連において示される。
【0033】
1つの例示的シナリオにおいて、スマートフォンなどのポータブルデバイスは、ユーザが彼/彼女の耳の画像を捕捉するために用いられることができるカメラと、耳に関連するASMを提示するGUIを表示することができる画面とを有する。ユーザは、前の考察に従って、ポータブルデバイスを用いて、スケーリングファクタを取得するように自分撮りを捕捉することができる。スケーリングファクタは、捕捉された耳の画像を自動スケーリングするための基礎として用いられることができる。
【0034】
本開示の実施形態によればポータブルデバイスは、画面上にGUIを提示し、捕捉されることになるユーザの耳の画像に対してアクティブ形状モデル200の制御点を適合させることができる、ソフトウェアを含むことができる。具体的には、ポータブルデバイスは、捕捉されることになるユーザの耳の画像に従って、制御点がユーザの耳の形状に適合するように、アクティブ形状モデル200を変形するように構成されることができるプロセッサを含むことができる。安定のインジケーションを受け取るとすぐに、ユーザは彼/彼女の耳の画像の捕捉に進むことができるのが好ましい(すなわち画像捕捉ステップ102において)。あるいは、ユーザの耳の画像は、安定のインジケーションの受け取りの後すぐに自動的に捕捉されることができる(例えばクイックレスポンスコードスキャンまたはバーコードスキャナと動作的に同様に)。従って、ユーザの耳の画像(好ましくは図2bに示されるように、アクティブ形状モデル200がユーザの耳の画像に重なり合った状態で)が捕捉されることができる。分析ステップ106において、捕捉されたユーザの耳の画像に基づいて、ユーザの耳の画像ベースの幾何学的特性および/または造作が抽出/決定されることができる(例えば画素の観点で)。さらに、基準決定ステップ104の間に決定されることができるスケーリングファクタに基づいて、ユーザの耳の物理的幾何形状および/または造作を決定するように、捕捉されたユーザの耳の画像の自動スケーリングが行われることができる(例えば画素の観点での幾何学的特性および/または造作は、センチメートルの観点での物理的寸法に変換/換算されることができる)。
【0035】
ユーザの耳の決定された物理的幾何形状および/または造作に基づいて(これは例えば分析ステップ106において、例えばプロセッサによって行われることができる)、このような物理的幾何形状および/または造作にマッチする/最も密接にマッチするHRTFを見出すために、個人化ステップ108において行われることができる探索が、HRTFデータベース(例えばHRTFの集合/ライブラリを有するオンラインデータベース)内で行われることができる。このようにして、個人化HRTFが作成/生成されることができる。ユーザの各耳(例えばユーザの左および右耳の両方)に対するHRTFを見出すことが望ましい場合、先に論じられた図1の方法100が、それに従って適用されることができることが理解されることができる。各耳に対して見出されたHRTF(例えば先に論じられた、HRTFデータベース内で行われる探索に基づいて)は、同じでありることができるか、または異なりることができることが企図される。
【0036】
あるいは、個人化HRTFは、既存のHRTF(例えばHRTFデータベース内で利用可能なHRTF)に摂動を加えることによって、個人化ステップ108において作成/生成されることができる。既存のHRTFの摂動は、2つ以上の頭部関連インパルス応答(HRIR)を補間するやり方によるものとすることができる。具体的には、ユーザの耳の決定された物理的幾何形状および/または造作に基づいて、そのような物理的幾何形状および/または造作に最も密接にマッチする2つ以上のHRIR(すなわちHRIR−AおよびHRIR−B)を見出すように、データベース(例えばHRIRの集合/ライブラリを有するオンラインデータベース)内で探索が行われることができる。補間されたHRIR(すなわち「HRIR−Interpolated」)を生成するように、見出されたHRIRのクロスフェードの処理が行われることができる。さらなるフーリエ変換の処理が行われ、HRTFを導出することができる。個人化HRTFは、補間されたHRIRに基づいて作成/生成されることができることが理解されることができる。クロスフェードに関連して、見出されたHRIRの各々に対するフェーディング係数は、距離(例えばユークリッドまたはマハラノビス距離)に反比例するものとすることができる。例えば、
HRIR−A=[a1,a2,a3,...a25];
HRIR−B=[b1,b2,b3,...b25];
HRIR−Interpolated=[a1*c+b1*(1−c),...]、ただし「c」は上述の距離を表し、0から1の範囲である。
【0037】
他の代替形態において、ユーザの耳の決定された物理的幾何形状および/または造作に基づいて、ユーザの耳の3次元(3D)モデルが構築されることができる。構築された3Dモデルに基づいた3D幾何形状を用いて、個人化HRTFを作成/生成するために、波動伝搬シミュレーション方法(例えば「Efficient and Accurate Sound Propagation Using Adaptive Rectangular Decomposition」 by Raghuvanshi N., Narain R., and Lin M.C. - IEEE Transactions on Visualization and Computer Graphics 2009)が用いられることができる。
【0038】
従って、これを前提として、単にユーザが例えばスマートフォンを用いて彼/彼女の耳の画像を捕捉するやり方によって、個人化/カスタム化HRTFを取得することが可能である。本開示は、ユーザフレンドリおよび/または効率的なやり方で、個人化HRTFの作成/生成を容易にすることが理解できる。さらに個人化/カスタム化HRTFはまた、リアルタイムで作成/生成されることができる。
【0039】
上記のようにして、上記の欠点の少なくとも1つに対処するための、本開示の様々な実施形態が述べられた。このような実施形態は、添付の「特許請求の範囲」によって包含され、述べられた部分の特定の形または配置に限定されないことが意図され、および当業者には本開示に鑑みて数多くの変形および/または変更がなされることができ、これらも添付の「特許請求の範囲」によって包含されるよう意図されることが明らかであろう。
【0040】
例えば、HRIRを補間すること以外に、本開示はまた3Dモーフィング方法(例えば「Cross-Parameterization and Compatible Remeshing of 3D Models」 by Kraevoy V., Sheffer A., ACM Transactions on Graphics (TOG) - Proceedings of ACM SIGGRAPH 2004)を用いて、耳モデルをユーザの耳の造作/幾何形状にマッチするように補間することが可能であること、および音響シミュレーションを行って新たなHRIRを導出することを企図する。新たなHRIRはフーリエ変換されて、HRTFを導出することができる。
【0041】
他の例において、本開示は、HRTFの質をさらに改善するために、ユーザの頭部の寸法を捕捉する可能性を企図する。具体的には、本開示は、頭部の寸法(頭部幅および奥行き)がHRTF計算のために重要となることができることを企図する。本開示の実施形態によれば、正面および側面画像(すなわち先に論じられた「自分撮り」に関連して)の両方により、頭部寸法の捕捉が可能となることができる。あるいは、頭部検出器(ASMに基づくが代わりに頭部モデルを用いるもの)が、頭部寸法を捕捉するために用いられることができる。
【図1】
【図2a】
【図2b】
【図2c】
【手続補正書】
【提出日】20180709
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
カスタム化HRTFを生成することによってオーディオレンダリングを強化する方法であって、
画像捕捉デバイスを用いて個人の少なくとも1つの耳の捕捉された画像を取得するステップであって、前記画像捕捉デバイスは、ユーザにフィードバックを提供するための前記捕捉された画像の予備的バージョンである予備的画像を処理するように構成されるものである、ステップと、
前記予備的画像にモデルを適用することによって、少なくとも前記予備的画像から、制御点に対応する標認点のセットを生成するステップと、
前記捕捉された画像の最終決定された表示からの、前記生成された前記個人に対する標認点のセットから、画像ベースの特性を抽出するステップと、
複数の個人に対して決定された複数のHRTFデータセットからカスタム化HRTFデータセットを選択するように構成された選択プロセッサに、前記画像ベースの特性を提供するステップと
を含む、方法。
【請求項2】
前記捕捉された画像の前記最終決定された表示に対応するように標認点の前記セットをスケーリングするステップをさらに含み、前記画像捕捉デバイスは、前記捕捉された画像の少なくとも前記予備的バージョンをディスプレイ画面に表示するように構成される、請求項1に記載の方法。
【請求項3】
捕捉された画像を取得するステップは、前記予備的画像と突き合わされた標認点の前記セットが受け入れられる許容範囲内であるときに前記ユーザにアラインメントされたことのインジケーションを提供する、前記画像捕捉デバイスの前記ディスプレイ画面にリアルタイムで重ね合わされる視覚的ガイドである標認点テンプレートを生成するステップをさらに含む、請求項2に記載の方法。
【請求項4】
前記スケーリングは、前記捕捉された画像から、従来の寸法の基準被写体の少なくとも1つ;入力画像の焦点合わせに関連付けられた焦点距離データおよび焦点長さ;または前記入力画像における前記耳に対する耳珠長さ、を用いて行われる、請求項2に記載の方法。
【請求項5】
捕捉された画像を取得するステップは、耳の存在の決定、および標認点の生成の両方を組み合わせる検出ステップを含む、請求項1に記載の方法。
【請求項6】
前記捕捉された画像に対する画像ベースの特性の抽出に用いられる前記モデルはアクティブ形状モデルであり、前記アクティブ形状モデルは前に少なくとも複数の個人の耳画像に対してトレーニングされている、請求項1に記載の方法。
【請求項7】
前記予備的画像は、前記耳の前記予備的画像にマッチするように前記モデルを変形することによって反復して処理された、いくつかの予備的画像の1つである、請求項1に記載の方法。
【請求項8】
前記複数のHRTFデータセットは、各HRTFデータセットについて異なる方位角および仰角値のHRTFペアの集合を有するデータベースである、請求項1に記載の方法。
【請求項9】
前記複数のHRTFデータセットからの前記カスタム化HRTFデータセットは、前記抽出された画像ベースの特性の、前記複数のHRTFデータセット内の前記HRTFデータセットのそれぞれに関連付けられた対応する画像ベースの特性に最も近くマッチングすることに基づいて選択される、請求項1に記載の方法。
【請求項10】
いくつかのHRTFデータセットが、前記複数のHRTFデータセットから、画像ベースの特性の1つまたは複数を突き合わせることによって選択され、前記カスタム化HRTFは、前記いくつかのHRTFデータセットの少なくとも1つに関する補間または摂動の1つによって生成され、ならびに前記画像ベースの特性は、標認点距離、標認点円弧、標認点角度、標認点幾何学的関係、耳甲介長さ、耳の幅、耳の高さ、前記耳の全体的な物理的寸法、および前記耳の3次元表示の1つまたは複数を含む、請求項1に記載の方法。
【請求項11】
カスタム化HRTFを処理するための処理デバイスであって、
画像処理デバイスを備え、前記画像処理デバイスは、
個人の少なくとも1つの耳の捕捉された画像を取得し、およびユーザにフィードバックを提供するための前記捕捉された画像の予備的バージョンである少なくとも1つの予備的画像を処理し、
前記予備的画像内の標認点を見出すことにおいて支援するために、前記予備的画像にモデルを適用することによって、制御点に対応する標認点のセットを生成し、
前記捕捉された前記耳の画像の最終決定された表示から、前記個人に対する画像ベースの特性を抽出し、および
複数の個人に対して決定された複数のHRTFデータセットからカスタム化HRTFデータセットを選択するように構成された選択プロセッサに、抽出された前記画像ベースの特性を提供する
ように構成される、処理デバイス。
【請求項12】
前記画像処理デバイスは、前記予備的画像のスケーリングされた表示を提供するために標認点の前記セットをスケーリングするようにさらに構成され、および前記ユーザにフィードバックを提供するように前記予備的画像を表示するためのディスプレイ画面をさらに備え、前記捕捉された画像を取得することは、前記予備的画像と突き合わされた標認点の前記セットが受け入れられる許容範囲内であるときに前記ユーザにアラインメントされたことのインジケーションを提供する、アラインメントを補助するための、前記画像処理デバイスの前記ディスプレイ画面にリアルタイムで重ね合わされる視覚的ガイドである標認点テンプレートを生成するステップをさらに含む、請求項11に記載の処理デバイス。
【請求項13】
前記スケーリングは、前記捕捉された画像から、従来の寸法の基準被写体の少なくとも1つ;前記捕捉された画像の焦点合わせに関連付けられた焦点距離データ;または前記捕捉された画像における前記耳に対する耳珠長さ、を用いて行われる、請求項12に記載の処理デバイス。
【請求項14】
前記複数のHRTFデータセットからの前記カスタム化HRTFデータセットは、前記抽出された画像ベースの特性の、前記複数のHRTFデータセット内の前記HRTFデータセットのそれぞれに関連付けられた前記画像ベースの特性に最も近くマッチングすることに基づいて選択される、請求項12に記載の処理デバイス。
【請求項15】
前記捕捉された画像に対する画像ベースの特性の抽出に用いられる前記モデルはアクティブ形状モデルであり、前記アクティブ形状モデルは前に少なくとも複数の個人の画像に対してトレーニングされている、請求項12に記載の処理デバイス。
【請求項16】
いくつかのHRTFデータセットが、前記複数のHRTFデータセットから、画像ベースの特性の1つまたは複数を突き合わせることによって選択され、前記カスタム化HRTFは、前記いくつかのHRTFデータセットの少なくとも1つに関する補間または摂動の1つによって生成され、ならびに前記画像ベースの特性は、標認点距離、標認点円弧、標認点角度、標認点幾何学的関係、耳甲介長さ、耳の幅、耳の高さ、前記耳の全体的な物理的寸法、および前記耳の3次元表示の1つまたは複数を含む、請求項12に記載の処理デバイス。
【請求項17】
カスタム化HRTFを生成するためのシステムであって、
個人の少なくとも1つの耳の捕捉された画像を取得するように、およびユーザにフィードバックを提供するための前記捕捉された画像の予備的バージョンである予備的画像を処理するように構成される画像処理デバイスと、
デバイスプロセッサであって、
前記予備的画像内の、制御点に対応する標認点を見出すことにおいて支援するために、前記予備的画像にモデルを適用することによって標認点のセットを生成すること、および前記捕捉された前記耳の画像から前記個人に対する画像ベースの特性を抽出することを行うように構成された、デバイスプロセッサと、
前記抽出された画像ベースの特性を受け取るための選択プロセッサであって、複数の個人に対して決定された複数のHRTFデータセットからカスタム化HRTFデータセットを選択するように構成され、前記デバイスプロセッサおよび前記選択プロセッサは個別のユニットとすることができ、または1つのプロセッサに組み合わされることができる、選択プロセッサと、
前記選択プロセッサによってアクセス可能であり、前記複数のHRTFデータセットを含んだメモリであって、前記複数のHRTFデータセットは、前記複数のHRTFデータセット内の各HRTFデータセットによって表される耳に対応する画像ベースの特性によってインデックス付けされる、メモリと
を備える、システム。
【請求項18】
捕捉された画像を取得するステップは、前記予備的画像と突き合わされた前記標認点が受け入れられる許容範囲内であるときに前記ユーザにアラインメントされたことのインジケーションを提供する、アラインメントを補助するための、前記画像処理デバイスのディスプレイ画面にリアルタイムで重ね合わされる視覚的ガイドである標認点テンプレートを生成するステップをさらに含む、請求項17に記載のシステム。
【請求項19】
前記複数のHRTFデータセットからの前記カスタム化HRTFデータセットは、前記抽出された画像ベースの特性の、前記複数のHRTFデータセット内の前記HRTFデータセットのそれぞれに関連付けられた対応する画像ベースの特性に最も近くマッチングすることに基づいて選択される、請求項18に記載のシステム。
【請求項20】
いくつかのHRTFデータセットが、前記複数のHRTFデータセットから、画像ベースの特性の1つまたは複数を突き合わせることによって選択され、前記カスタム化HRTFは、前記いくつかのHRTFデータセットの少なくとも1つに関する補間または摂動の1つによって生成され、ならびに前記画像ベースの特性は、標認点距離、標認点円弧、標認点角度、標認点幾何学的関係、耳甲介長さ、耳の幅、耳の高さ、前記耳の全体的な物理的寸法、および前記耳の3次元表示の1つまたは複数を含む、請求項17に記載のシステム。
【国際調査報告】