(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】2021510225
(43)【公表日】20210415
(54)【発明の名称】ビデオチューブを使用した行動認識方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20210319BHJP
   G08G 1/16 20060101ALI20210319BHJP
【FI】
   !G06T7/20 300Z
   !G08G1/16 F
【審査請求】有
【予備審査請求】未請求
【全頁数】41
(21)【出願番号】2020538568
(86)(22)【出願日】20181211
(85)【翻訳文提出日】20200817
(86)【国際出願番号】CN2018120397
(87)【国際公開番号】WO2019137137
(87)【国際公開日】20190718
(31)【優先権主張番号】15/867,932
(32)【優先日】20180111
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】504161984
【氏名又は名称】ホアウェイ・テクノロジーズ・カンパニー・リミテッド
【住所又は居所】中華人民共和国・518129・グァンドン・シェンツェン・ロンガン・ディストリクト・バンティアン・(番地なし)・ホアウェイ・アドミニストレーション・ビルディング
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【弁理士】
【氏名又は名称】野村 進
(72)【発明者】
【氏名】ファティフ・ポリクリ
【住所又は居所】アメリカ合衆国・カリフォルニア・95135・サン・ノゼ・ラ・コスタ・ウェイ・3300
(72)【発明者】
【氏名】チジエ・シュ
【住所又は居所】アメリカ合衆国・カリフォルニア・95050・サンタ・クララ・セントラル・エクスプレスウェイ・2330
(72)【発明者】
【氏名】ルイス・ビル
【住所又は居所】アメリカ合衆国・カリフォルニア・95050・サンタ・クララ・セントラル・エクスプレスウェイ・2330
(72)【発明者】
【氏名】ウェイ・ファン
【住所又は居所】アメリカ合衆国・カリフォルニア・95050・サンタ・クララ・セントラル・エクスプレスウェイ・2330
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181AA07
5H181AA21
5H181AA26
5H181CC04
5H181LL07
5H181LL08
5H181LL20
5L096BA02
5L096BA04
5L096CA04
5L096DA03
5L096FA62
5L096FA69
5L096GA17
5L096GA51
5L096HA02
5L096JA03
(57)【要約】
行動認識装置が、第1のオブジェクトおよび第2のオブジェクトについてビデオソースからビデオストリームを受け取るように構成されたポートと、命令およびビデオストリームの画像フレームを格納するように構成されたメモリと、1つまたは複数のプロセッサであって、1つまたは複数のプロセッサはメモリに格納された命令を実行し、1つまたは複数のプロセッサは、第1のオブジェクトの存在に基づいて画像フレームの部分を選択し、画像フレームの部分内のエリアを決定し、決定されたエリアによってビデオフレーム内の第1のオブジェクトの位置の境界が示され、画像フレームのエリア内の第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定し、前記決定された動きおよび前記第2のオブジェクトの位置に従って行動を特定し、前記特定された行動に従って警報を生成する、ように構成される、1つまたは複数のプロセッサと、を含む。
【特許請求の範囲】
【請求項1】
行動認識装置であって、前記装置が、
第1のオブジェクトおよび第2のオブジェクトについてビデオソースからビデオストリームを受け取るように構成されたポートと、
命令および前記ビデオストリームの画像フレームを格納するように構成されたメモリと、
1つまたは複数のプロセッサであって、前記1つまたは複数のプロセッサが前記メモリに格納された前記命令を実行し、前記1つまたは複数のプロセッサが、
前記第1のオブジェクトの存在に基づいて前記画像フレームの部分を選択し、
画像フレームの前記部分内のエリアを決定し、前記決定されたエリアによって前記ビデオフレーム内の前記第1のオブジェクトの位置の境界が示され、
前記画像フレームの前記エリア内の前記第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定し、
前記決定された動きおよび前記第2のオブジェクトの位置に従って行動を特定し、前記特定された行動に従って警報を生成する、
ように構成される、1つまたは複数のプロセッサと、
を含む、行動認識装置。
【請求項2】
前記1つまたは複数のプロセッサが、
第1の画像フレームの第1のウィンドウ表示部分と第2の画像フレームの同じ第1のウィンドウ表示部分との間の類似性スコアを決定し、前記アクティブエリアが前記第1および第2の画像フレームの前記第1のウィンドウ表示部分に含まれ、
前記類似性スコアが指定された類似性閾値より大きい場合、前記第2の画像フレームの前記第1のウィンドウ表示部分の処理を省略し、
前記類似性スコアが前記指定された類似性閾値より小さい場合、前記画像フレームの他の部分より前記第1のオブジェクトの画像を含む可能性が高い前記ビデオストリームの前記画像フレームの第2のウィンドウ表示部分を生成するため、前記第2の画像フレームにおいて前記第1のオブジェクトの検出を行い、前記ビデオストリームの前記画像フレームの再配置された部分の集合を含むビデオチューブに前記画像の前記第2のウィンドウ表示部分を含める、ように構成される、請求項1に記載の行動認識装置。
【請求項3】
前記1つまたは複数のプロセッサが、前記アクティブエリアのウィンドウサイズを反復的に設定し、前記ウィンドウサイズが手画像を含むように設定される、ように構成される、請求項1に記載の行動認識装置。
【請求項4】
前記第1のオブジェクトが手であり、前記1つまたは複数のプロセッサが、
手のアクティブエリアの中心を決定し、
前記決定された中心を基準として前記手のアクティブエリアの境界をスケール変更することによって探索エリアを特定し、
前記特定された探索エリアで手画像検出を行い、
前記手画像検出の結果に従って前記サイズウィンドウを設定する、ように構成される、請求項3に記載の行動認識装置。
【請求項5】
前記1つまたは複数のプロセッサが、
次のウィンドウを予測するために、前記第1のオブジェクトの前記決定された動きを使用し、
前記次のウィンドウを使用して前記第1のオブジェクトの画像検出を行い、
前記次のウィンドウが前記第1のオブジェクトの検出された画像の前記境界を含む場合、現在のウィンドウを前記次のウィンドウで置き換え、
前記第1のオブジェクトの前記検出された画像の前記境界が前記次のウィンドウを越えて延在する場合、
前記現在のウィンドウと前記次のウィンドウとをマージし、
前記マージされたウィンドウにおいて前記第1のオブジェクトの画像を特定し、
前記第1のオブジェクトの前記特定された画像を含む新しい最小化されたウィンドウサイズを決定する、ように構成される、請求項3に記載の行動認識装置。
【請求項6】
前記第1のオブジェクトが手であり、前記1つまたは複数のプロセッサが、
手画像を含む前記決定されたエリアの画素を特定し、
手の動きを決定するために、前記画像フレームのウィンドウ表示部分間で前記手画像を含む画素の変化を追跡する、ように構成される、請求項1に記載の行動認識装置。
【請求項7】
前記第1のオブジェクトが手であり、前記1つまたは複数のプロセッサが、
前記画像フレームにおいて指先および関節点の位置を決定し、
前記手の動きを決定するために、前記画像フレームのウィンドウ表示部分間で指先および関節点の前記変化を追跡する、ように構成される、請求項1に記載の行動認識装置。
【請求項8】
前記第1のオブジェクトが手であり、前記1つまたは複数のプロセッサが、
手の動きを決定し、
前記決定された手の動きおよび前記第2のオブジェクトを使用して前記行動を特定する、ように構成される、請求項1に記載の行動認識装置。
【請求項9】
前記1つまたは複数のプロセッサが、
前記決定された手の動きと第2のオブジェクトの組み合わせを前記メモリに格納された手の動きとオブジェクトの1つまたは複数の組み合わせと比較し、
前記比較の結果に基づいて前記行動を特定する、ようにさらに構成される、請求項8に記載の行動認識装置。
【請求項10】
前記1つまたは複数のプロセッサが、
前記画像フレームの前記決定されたエリアを使用して手の動きのシーケンスを検出し、
前記検出された手の動きのシーケンスを、1つまたは複数の指定された行動の指定された手の動きのシーケンスと比較し、
前記比較の結果に従って前記1つまたは複数の指定された行動の中から行動を選択する、ようにさらに構成される、請求項8に記載の行動認識装置。
【請求項11】
前記1つまたは複数のプロセッサが、前記第1のおよび第2のオブジェクト、ならびに対応する特徴マップを含む前記ビデオストリームの前記画像フレームの再配置された部分の集合を含むビデオチューブを生成するようにさらに構成される、請求項1に記載の行動認識装置。
【請求項12】
前記1つまたは複数のプロセッサが、ビデオチューブ情報を前記メモリにスケーラブルテンソルビデオチューブとして格納するように構成され、前記行動分類コンポーネントが、前記スケーラブルテンソルビデオチューブを、人の前記行動を特定するために前記行動分類コンポーネントによって実行される深層学習アルゴリズムへの入力として適用するように構成される、請求項11に記載の行動認識装置。
【請求項13】
前記1つまたは複数のプロセッサが、前記人の識別に従って前記スケーラブルテンソルビデオチューブ内の前記画像フレームの部分の行方向の構成を選択し、前記選択された行方向の構成を、前記人の前記行動を特定するために前記深層学習アルゴリズムに前記入力として適用するように構成される、請求項12に記載の行動認識装置。
【請求項14】
前記1つまたは複数のプロセッサが、複数の人の識別に従って前記スケーラブルテンソルビデオチューブ内の前記画像フレームの部分の列方向の構成を選択し、前記選択された列方向の構成を、前記複数の人の間の相互作用を特定するために前記深層学習アルゴリズムに前記入力として適用するように構成される、請求項12に記載の行動認識装置。
【請求項15】
前記1つまたは複数のプロセッサが、複数の人のグループの識別に従って前記スケーラブルテンソルビデオチューブ内の前記画像フレームの部分の複数の列方向の構成を選択し、前記選択された複数の列方向の構成を、前記複数の人のグループの間の複数の相互作用を特定するために前記深層学習アルゴリズムに前記入力として適用するように構成される、請求項12に記載の行動認識装置。
【請求項16】
前記ビデオソースが、車両コンパートメントの画像のビデオストリームを提供するように構成されたイメージングアレイを含み、前記1つまたは複数のプロセッサが、前記車両コンパートメントの前記画像の前記ビデオストリームを使用して行動を特定するように構成された車両処理部に含まれる、請求項1に記載の行動認識装置。
【請求項17】
行動の機械認識のコンピュータ実装方法であって、前記方法が、
ビデオソースを使用して第1のオブジェクトおよび第2のオブジェクトのビデオストリームを取得するステップと、
前記ビデオストリームの画像フレームの部分を前記部分内の第1のオブジェクトの存在に基づいて選択するステップと、
前記第1のオブジェクトの位置の境界を示す前記画像フレームの前記部分内のエリアを決定するステップと、
前記決定されたエリア内の前記第1のオブジェクトの動きおよび前記第2のオブジェクトの位置を決定するステップと、
前記決定された前記第1のオブジェクトの動きおよび前記第2のオブジェクトの位置を使用して行動を特定するステップと、
前記特定された行動に従って可聴警報および視覚警報の一方または両方を生成するステップと、
を含む、方法。
【請求項18】
前記第1のオブジェクトの位置の境界を示す前記画像フレームの前記部分内のエリアを決定するステップが、
前記ビデオストリームの第1の画像フレームおよび後続の第2の画像フレームを受け取るステップと、
前記第1の画像フレームの第1のウィンドウ表示部分と前記第2の画像フレームの前記第1のウィンドウ表示部分との間の類似性スコアを決定するステップであって、前記第1のオブジェクトの前記位置が前記画像フレームの前記第1のウィンドウ表示部分に位置決めされる、ステップと、
前記類似性スコアが指定された類似性閾値より大きい場合、前記第2の画像フレームの前記第1のウィンドウ表示部分の処理を省略するステップと、
前記類似性スコアが前記指定された類似性閾値より小さい場合、前記画像フレームの他の部分より前記第1のオブジェクトを含む可能性が高い前記画像フレームの第2のウィンドウ表示部分を生成するために、前記第2の画像フレームにおいて前記第1のオブジェクトの検出をトリガし、前記決定されたエリアに前記第2のウィンドウ表示部分を含めるステップと、
を含む、請求項17に記載の方法。
【請求項19】
行動認識装置の1つまたは複数のプロセッサによって実行されると、前記行動認識装置に、
ビデオソースを使用して第1のオブジェクトおよび第2のオブジェクトのビデオストリームを取得する動作と、
前記ビデオストリームの画像フレームの部分を前記部分内の第1のオブジェクトの存在に基づいて選択する動作と、
前記第1のオブジェクトの位置の境界を示す前記画像フレームの前記部分内のエリアを決定する動作と、
前記決定されたエリア内の前記第1のオブジェクトの動きおよび前記第2のオブジェクトの位置を決定する動作と、
前記決定された前記第1のオブジェクトの動きおよび前記第2のオブジェクトの位置を使用して行動を特定する動作と、
前記特定された行動に従って可聴警報および視覚警報の一方または両方を生成する動作と、
を含む動作を行わせる命令を含む、非一時的なコンピュータ可読記憶媒体。
【請求項20】
前記行動認識装置に、
前記決定された動きを使用して次のウィンドウを予測する動作と、
前記次のウィンドウを使用して前記第1のオブジェクトの画像検出を行う動作と、
前記次のウィンドウが前記第1のオブジェクトの検出された画像の前記境界を含む場合、現在のウィンドウを前記次のウィンドウで置き換える動作と、
前記検出された手画像の前記境界が前記次のウィンドウを越えて延在する場合、
前記現在のウィンドウと前記次のウィンドウとをマージする動作と、
前記マージされたウィンドウにおいて前記第1のオブジェクトの画像を特定する動作と、
前記第1のオブジェクトの前記特定された画像を含む新しい最小化されたウィンドウサイズを決定する動作と、
を含む動作を行わせる命令を含む、請求項19に記載の非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、2018年1月11日に出願された、「Activity Recognition Method Using Videotubes」という名称の米国特許出願第15/867,932号の優先権を主張するものである。
【0002】
本開示は、自動行動認識に関し、特に自動運転者支援システムに関する。
【背景技術】
【0003】
車両知覚は、車両の操作に関連した車両の周囲の情報を感知することに関する。車両知覚は、車両自体にその周囲で何が起こっているかの知識を供給する車両の目の役割を果たす。車室内知覚は、運転者および同乗者の状態および行動が、運転者の安全運転の支援、および改善されたヒューマンマシンインターフェース(HMI)の提供に関してきわめて重要な知識を提供するので、車両知覚の重要な局面である。運転者の行動を認識していれば、車両は、運転者が注意散漫、疲労、苦痛、激怒、または不注意の状態にあるかどうかを判断することができるので、車両は事故を防ぐよう運転者を安全に保ち、運転者の快適さのレベルを高めるための警報や支援機構を提供できる。自動行動認識は新しい技術である。現在の行動認識方法は、車両の大きな空間を占有すると同時に大量のエネルギーを消費する可能性のある高性能のコンピューティングリソースに大きく依拠している。本発明者らは、車両知覚のための改善された行動検出の必要を認識している。
【発明の概要】
【課題を解決するための手段】
【0004】
次に、様々な例を示して、以下の詳細な説明でさらに説明される概念のうちの選択したものを簡略化した形で紹介する。この概要は、特許請求される主題の重要な特徴または本質的な特徴を特定するためのものでも、特許請求される主題の範囲の限定に使用するためのものでもない。
【0005】
本開示の一態様によれば、行動の機械認識のコンピュータ実装方法が提供される。方法は、ビデオソースを使用して第1のオブジェクトおよび第2のオブジェクトのビデオストリームを取得するステップと、ビデオストリームの画像フレームの部分をそれらの部分内の第1のオブジェクトの存在に基づいて選択するステップと、第1のオブジェクトの位置の境界を示す画像フレームの部分内のエリアを決定するステップと、決定されたエリア内の第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定するステップと、決定された第1のオブジェクトの動きおよび第2のオブジェクトの位置を使用して行動を特定するステップと、特定された行動に従って可聴警報および視覚警報の一方または両方を生成するステップと、を含む。
【0006】
任意選択で、前述の態様において、該態様の別の実施態様は、ビデオソースを使用して画像のビデオストリームを取得するステップと、1つまたは複数のプロセッサを使用し、ビデオストリームを使用してビデオチューブを生成するステップとを提供する。ビデオチューブは、人間の手の画像を含む画像フレームの再配置された部分を含む。ビデオチューブを、行動アクティブエリアの周囲の所与のビデオストリームから再構築することができる。行動アクティブエリアは、手と、オブジェクトと、行動タイプの検出を可能にする関心対象画素との組み合わせを含み得る。ビデオチューブは、複数のウィンドウ表示され、処理され、再配置されたビデオフレームの領域および、動き、階調、オブジェクトヒートマップなどの対応する特徴を含み得る。これらの領域および計算された特徴画像のすべての組み合わせを正規化、スケール変更および再配置してスケーラブルなテンソルビデオ構造と時間的構造とにすることができる。方法は、手画像を使用して手の動き、またはジェスチャ、およびヒートマップを決定するステップと、決定された手の動きおよびヒートマップを使用して行動を特定するステップと、特定された行動に従って可聴警報および視覚警報の一方または両方を生成するステップと、をさらに含む。
【0007】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブを生成するステップが、ビデオストリームの第1の画像フレームおよび後続の第2の画像フレームを受け取るステップと、第1の画像フレームの第1のウィンドウ表示部分と第2の画像フレームの第1のウィンドウ表示部分との間の類似性スコアを決定するステップであって、ビデオチューブが画像フレームの第1のウィンドウ表示部分に位置決めされる、ステップと、類似性スコアが指定された類似性閾値より大きい場合、第2の画像フレームの第1のウィンドウ表示部分の処理を省略するステップと、類似性スコアが指定された類似性閾値より小さい場合、画像フレームの他の部分より手画像を含む可能性が高い画像フレームの第2のウィンドウ表示部分を生成するために、第2の画像フレームにおいて手検出をトリガし、ビデオチューブに画像フレームの第2のウィンドウ表示部分を含めるステップと、を含むものである。
【0008】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブを生成するステップが、ビデオチューブのウィンドウサイズを反復的に決定するステップであって、ウィンドウサイズが手画像を完全に含むように最小化される、ステップを含むものである。
【0009】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブの手エリアにおける手の動きを決定するステップが、手画像を含む画素を特定するステップと、ビデオストリームの画像フレーム間で手画像を含む画素の変化を追跡するステップを含み、ビデオチューブが手の動き情報を含むものである。
【0010】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブを生成するステップが、手、関心対象のオブジェクト、および対応する特徴マップを含むビデオストリームの画像フレームの再配置された部分の集合を含むビデオチューブを生成するステップを含むものである。
【0011】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブ内のオブジェクト情報を決定するステップであって、オブジェクト情報がオブジェクトのヒートマップを含む、ステップ、をさらに含む方法であって、行動を関連付けることが、オブジェクト情報および決定された手の動きを使用して行動を決定することを含む、方法を提供する。
【0012】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、決定された手の動きまたはジェスチャを使用して行動を特定するステップが、ビデオチューブから取得されたオブジェクト情報および手の動き情報を、行動を特定するために処理部によって行われる機械学習プロセスへの入力として適用するステップを含むものである。
【0013】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、画像のビデオストリームを取得するステップが、車両のイメージングアレイを使用して車両コンパートメントの画像のビデオストリームを取得するステップを含み、ビデオチューブを生成するステップが、車両コンパートメントの画像のビデオストリームを使用して車両処理部がビデオチューブを生成するステップを含むものである。
【0014】
本開示の別の態様によれば、行動認識装置は、ビデオソースからビデオストリームを受け取るように構成されたポートと、ビデオストリームの画像フレームを格納するように構成されたメモリと、1つまたは複数のプロセッサとを含む。1つまたは複数のプロセッサはメモリに格納された命令を実行する。命令は、1つまたは複数のプロセッサを、第1のオブジェクトの存在に基づいて画像フレームの部分を選択し、画像フレームの部分内のエリアを決定し、決定されたエリアによってビデオフレーム内の第1のオブジェクトの位置の境界が示され、画像フレームのエリア内の第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定し、決定された動きおよび第2のオブジェクトの位置に従って行動を特定し、特定された行動に従って警報を生成する、ように構成する。
【0015】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、画像フレームを使用してビデオチューブを生成するように構成されたグローバル関心領域(region of interest(ROI))検出コンポーネントと、人の手を含む画像フレームの部分を検出するように構成された動的行動アクティブエリア(activity active area(AAA))生成コンポーネントであって、ビデオチューブが再配置されたAAAを含む、動的AAA生成コンポーネントと、手エリアを使用して手の動きおよびヒートマップを決定するように構成されたキー特徴生成コンポーネントと、決定された手の動きに従って行動を特定し、特定された行動に従って警報を生成するように構成された行動認識分類コンポーネントと、を含む1つまたは複数のプロセッサを提供する。キー特徴生成コンポーネントは、特定されたオブジェクトのヒートマップを使用して手の動きを決定し得る。
【0016】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、第1の画像フレームの第1のウィンドウ表示部分と第2の画像フレームの同じ第1のウィンドウ表示部分との間の類似性スコアを決定し、ビデオチューブが第1および第2の画像フレームの第1のウィンドウ表示部分に含まれ、類似性スコアが指定された類似性閾値より大きい場合、第2の画像フレームの第1のウィンドウ表示部分の処理を省略し、類似性スコアが指定された類似性閾値より小さい場合、画像フレームの他の部分より手画像を含む可能性が高いビデオストリームの画像フレームの第2のウィンドウ表示部分を生成するために、第2の画像フレームにおいて手検出を行い、ビデオチューブに画像の第2のウィンドウ表示部分を含める、ように構成されたグローバルROI検出コンポーネントを提供する。
【0017】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブのウィンドウサイズを反復的に設定するように構成された動的行動アクティブエリア(AAA)生成コンポーネントであって、ウィンドウサイズが手画像を完全に含むように最小化される、動的AAA生成コンポーネントを提供する。
【0018】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、手画像を含む手エリアの中心を決定し、決定された中心を基準として手エリアの境界をスケール変更することによって探索エリアを特定し、特定された探索エリアで手検出を行い、手検出の結果に従ってサイズウィンドウを設定する、ように構成された動的AAA生成コンポーネントを提供する。
【0019】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、手画像を含む手エリアの中心を決定し、決定された中心を基準として手エリアの境界をスケール変更することによって探索エリアを特定し、特定された探索エリアで手検出を行い、手検出の結果に従ってサイズウィンドウを設定する、ように構成された動的AAA生成コンポーネントを提供する。
【0020】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、次のウィンドウを予測するために、決定された手の動きを使用し、次のウィンドウを使用して手画像検出を行い、次のウィンドウが検出された手画像の境界を含む場合、現在のウィンドウを次のウィンドウで置き換え、検出された手画像の境界が次のウィンドウを越えて延在している場合、現在のウィンドウと次のウィンドウとをマージし、マージされたウィンドウで手画像を特定し、特定された手画像を含む新しい最小化されたウィンドウサイズを決定する、ように構成された動的AAA生成コンポーネントを提供する。
【0021】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、手画像を含む手エリアで画素を特定し、手の動きを決定するために、画像フレームのウィンドウ表示部分間で手の画像を含む画素の変化を追跡するように構成されたキー特徴生成コンポーネントを提供する。
【0022】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、画像フレームにおいて指先および関節点の位置を決定し、手の動きを決定するために、画像フレームのウィンドウ表示部分間で指先および関節点の変化を追跡するように構成されたキー特徴生成コンポーネントを提供する。
【0023】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、手、関心対象のオブジェクト、および対応する特徴マップを含むビデオストリームの画像フレームの再配置された部分の集合を含むビデオチューブを提供する。
【0024】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブでオブジェクトを特定し、特定されたオブジェクトおよび決定された手の動きを使用して行動を特定するように構成されたキー特徴生成コンポーネントを提供する。
【0025】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、特定されたオブジェクトと決定された手の動きの組み合わせを、メモリに格納されたオブジェクトと手の動きの1つまたは複数の組み合わせと比較し、比較の結果に基づいて行動を特定するように構成された行動認識分類コンポーネントを提供する。
【0026】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブの画像フレームを使用して手の動きのシーケンスを検出し、検出された手の動きのシーケンスを、1つまたは複数の指定された行動の指定された手の動きのシーケンスと比較し、比較の結果に従って1つまたは複数の指定された行動の中から行動を選択するように構成された行動認識分類コンポーネントを提供する。
【0027】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、ビデオチューブ情報をメモリにスケーラブルテンソルビデオチューブとして格納するように構成されたキー特徴生成コンポーネントを提供し、行動認識分類コンポーネントは、スケーラブルテンソルビデオチューブを、行動を特定するために行動認識分類コンポーネントによって実行される深層学習アルゴリズムへの入力として適用するように構成される。
【0028】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、人の識別に従ってスケーラブルテンソルビデオチューブ内のAAAの行方向の構成を選択し、選択されたAAAの行方向の構成を、人の行動を特定するために深層学習アルゴリズムに入力として適用するように構成された行動認識分類コンポーネントを提供する。
【0029】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、複数の人の識別に従ってスケーラブルテンソルビデオチューブ内のAAAの列方向の構成を選択し、選択されたAAAの列方向の構成を、複数の人の間の相互作用を特定するために深層学習アルゴリズムに入力として適用するように構成された行動認識分類コンポーネントを提供する。
【0030】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、複数の人のグループの識別に従ってスケーラブルテンソルビデオチューブ内の複数のAAAの列方向の構成を選択し、選択された複数のAAAの列方向の構成を、複数の人のグループ間の複数の相互作用を特定するために深層学習アルゴリズムに入力として適用するように構成された行動認識分類コンポーネントを提供する。
【0031】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、車両コンパートメントの画像のビデオストリームを提供するように構成されたイメージングアレイを含むビデオソースを提供し、処理部は、車両コンパートメントの画像のビデオストリームを使用してビデオチューブを生成するように構成された車両処理部である。
【0032】
本開示の別の態様によれば、行動認識装置の1つまたは複数のプロセッサによって実行されると、行動認識装置に、ビデオソースを使用して画像のビデオストリームを取得する動作と、ビデオストリームの画像フレームの部分をそれらの部分内の第1のオブジェクトの存在に基づいて選択する動作と、第1のオブジェクトの位置の境界を示す画像フレームの部分内のエリアを決定する動作と、決定されたエリア内の第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定する動作と、決定された第1のオブジェクトの動きおよび第2のオブジェクトの位置を使用して行動を特定する動作と、特定された行動に従って可聴警報および視覚警報の一方または両方を生成する動作と、を含む動作を行わせる命令を含むコンピュータ可読記憶媒体がある。任意選択で、コンピュータ可読記憶媒体は非一時的である。
【0033】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、行動認識装置に、ビデオストリームを使用してビデオチューブを生成する動作であって、ビデオチューブが、手画像を含むビデオストリームの画像フレームの再配置された部分を含む、動作と、手画像を使用して手の動きおよびヒートマップを決定する動作と、決定された手の動きおよびヒートマップを行動と関連付ける動作と、行動に従って可聴警報および視覚警報の一方または両方を生成する動作と、を含む動作を行わせる命令を含むコンピュータ可読記憶媒体を含む。
【0034】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、行動認識装置に、ビデオチューブのウィンドウサイズを反復的に決定する動作であって、ウィンドウサイズが手画像を完全に含むように最小化される、動作、を含む動作を行わせる命令を含むコンピュータ可読記憶媒体を含む。
【0035】
任意選択で、前述の態様のいずれかにおいて、該態様の別の実施態様は、行動認識装置に、決定された手の動きを使用して次のウィンドウを予測する動作と、次のウィンドウを使用して手画像検出を行う動作と、次のウィンドウが検出された手画像の境界を含む場合、現在のウィンドウを次のウィンドウで置き換える動作と、検出された手画像の境界が次のウィンドウを越えて延在している場合、現在のウィンドウと次のウィンドウとをマージする動作と、マージされたウィンドウで手画像を特定する動作と、特定された手画像を含む新しい最小化されたウィンドウサイズを決定する動作と、を含む動作を行わせる命令を含むコンピュータ可読記憶媒体を含む。
【図面の簡単な説明】
【0036】
【図1】例示的な実施形態による車両車室内の乗員の図である。
【図2】例示的な実施形態による行動の機械認識の方法の流れ図である。
【図3】例示的な実施形態による行動認識のシステムのブロック図である。
【図4】例示的な実施形態による画像データにおけるグローバル関心領域の検出のための機械またはコンピュータ実装方法の流れ図である。
【図5】例示的な実施形態による画像処理ウィンドウの画像対和集合の図である。
【図6】例示的な実施形態による画像データにおける手の検出のためのコンピュータ実装方法の流れ図である。
【図7A】例示的な実施形態による手検出のための探索ウィンドウの設定を示す図である。
【図7B】例示的な実施形態による手検出のための探索ウィンドウの設定を示す図である。
【図7C】例示的な実施形態による手検出のための探索ウィンドウの設定を示す図である。
【図7D】例示的な実施形態による手検出のための探索ウィンドウの設定を示す図である。
【図8】例示的な実施形態によるより詳細な画像検出の図である。
【図9】例示的な実施形態による動的ウィンドウ表示コンポーネントのブロック図である。
【図10】例示的な実施形態による動的ウィンドウ表示のトリガされたプロセスの図である。
【図11】例示的な実施形態による自動行動認識のためのシステムの部分のブロック図である。
【図12】例示的な実施形態によるオプティカルフローを使用したモーションフロー情報の決定の結果を示す図である。
【図13】例示的な実施形態によるヒートマップ生成の図である。
【図14】例示的な実施形態によるビデオチューブのためのキー特徴を示す図である。
【図15】例示的な実施形態による空間次元への画像フレームの正規化を示す図である。
【図16】例示的な実施形態によるビデオチューブの正規化の図である。
【図17】例示的な実施形態による2つの異なるビデオチューブ構造のキー特徴の再配置を示す流れ図である。
【図18】例示的な実施形態によるスケーラブルテンソルビデオチューブの図式的三次元表現の図である。
【図19】例示的な実施形態によるビデオチューブに基づくものである特定の行動認識ネットワークアーキテクチャの一例のブロック図である。
【図20】例示的な実施形態によるビデオチューブに基づくものである特定の行動認識ネットワークアーキテクチャの別の例のブロック図である。
【図21】例示的な実施形態による手エリアを含む画像フレームの部分の図である。
【図22】例示的な実施形態による方法を実行するための回路を示すブロック図である。
【発明を実施するための形態】
【0037】
以下の説明では、本明細書の一部を形成し、実施され得る具体的な実施形態が例示されている添付の図面を参照する。これらの実施形態は、当業者が本発明を実施できるようにするのに十分な程度に詳細に説明されており、他の実施形態が利用され得ること、および本発明の範囲から逸脱することなく構造的、論理的、電気的変更がなされ得ることを理解されたい。したがって、以下の例示的実施形態の説明は、限定的な意味で解釈されるべきではなく、本発明の範囲は添付の特許請求の範囲によって定義される。
【0038】
本明細書に記載される機能またはアルゴリズムは、一実施形態ではソフトウェアで実装され得る。ソフトウェアは、ローカルの、またはネットワーク接続された、1つまたは複数の非一時的メモリや他のタイプのハードウェアベースの記憶装置などのコンピュータ可読媒体またはコンピュータ可読記憶装置に格納されたコンピュータ実行可能命令からなり得る。さらに、そのような機能はコンポーネントに対応し、コンポーネントは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせであり得る。複数の機能が必要に応じて1つまたは複数のコンポーネントにおいて実行されてもよく、記載の実施形態は単なる例にすぎない。ソフトウェアは、パーソナルコンピュータ、サーバその他のコンピュータシステムなどのコンピュータシステム上で動作するデジタル信号プロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、マイクロプロセッサ、または他のタイプのプロセッサ上で実行され、そのようなコンピュータシステムを専用にプログラムされた機械に転換し得る。
【0039】
本明細書で前述したように、車両操作の安全性を向上させるために車両知覚などの用途には自動行動認識が望ましい。行動認識の現在のアプローチは、法外に大量のエネルギーおよび車両空間を使用するコンピューティングデバイスによる複雑な計算を必要とする。
【0040】
図1は、車両車室内の乗員の図である。図1に示されるように、車両車室の乗員は、多くの場合、自分の手を使用して、ハンドル操作や車載ラジオの操作などの様々な行動を行う。乗員の行動を認識するために焦点を合わせるべきエリアとして行動認識システムは手エリアを使用することができる。車両車室またはコンパートメントは、撮像装置105(カメラなど)または車両の室内ビューのビデオを提供するデバイスのアレイを含む。手エリア103および手エリア107は撮像装置105の視点からはっきりと見える。
【0041】
図1のイメージセンサアレイ105は車両処理部(図示されていない)に接続されている。車両処理部は、1つまたは複数のビデオプロセッサおよびメモリを含むことができ、車両処理部は行動認識プロセスを実行する。イメージセンサアレイ105は、車両の車室全体のビデオを取り込むことができる。車両処理部の関心領域(ROI)コンポーネントが、イメージセンサアレイによって取り込まれたビデオストリームを受け取り、画像全体を探索して大まかな手エリアの位置を特定する。このグローバルROI検出器は、より高速で、電力および計算量に関してより安価な分類器/検出器を使用して、検出されたオブジェクトが実際に人間の手であるかどうかを対応する検出信頼度を使用して大まかに特定する。
【0042】
ビデオチューブは、撮像装置105によって返された生ビデオ画像から生成されたローカルビデオパッチおよび特徴を含む。ビデオチューブは、人間の手の画像を含む画像フレームの再配置された部分を含むことができる。ビデオチューブを、行動アクティブエリアの周囲の所与のビデオストリームから再構築することができる。行動アクティブエリアは、手と、オブジェクトと、行動タイプの検出を可能にする関心対象画素との組み合わせを含み得る。ビデオチューブは、複数のウィンドウ表示され、処理され、再配置されたビデオフレームの領域および、動き、階調、オブジェクトヒートマップなどの対応する特徴を含み得る。これらの領域および計算された特徴画像のすべての組み合わせを正規化、スケール変更および再配置してスケーラブルなテンソルビデオ構造と時間的ビデオ構造とにすることができる。
【0043】
自動行動認識で使用するために、生画像から運転者(または同乗者)の行動に関連していないエリアを除去することによってビデオチューブが作られる。ビデオチューブは、車両内で起こっている行動を記述する情報のいくつかの部分を含むことができる。車両内の行動には通常、運転者および同乗者の手が関与する。人間の手と、手と相互作用しているオブジェクトとを含む元の画像のウィンドウ表示部分を含むビデオチューブを生成することができる。ビデオチューブは、手のモーションプロファイル(手のモーションフローや手の動きなど)も含むことができる。いくつかの実施形態では、ビデオチューブはヒートマップを含むことができる。ヒートマップを決定されたアクティブな行動エリア内の第1のオブジェクト(手など)の位置として定義することができる。位置情報を、アクティブエリアまたは画像フレームを中心とした座標系を基準として表すことができる。画像フレーム座標を使用することにより、第1のタイプの複数のオブジェクト(所与の画像において見える複数の手など)の相対位置の取り込みが可能になる。
【0044】
いくつかの実施形態では、ビデオチューブは、ビデオストリームの画像フレームの再配置された部分の集合であり、手、他の関心対象のオブジェクトの画像、および対応する特徴マップを含むことができる。いくつかの実施形態では、ビデオチューブはスケーラブルテンソルビデオチューブと呼ぶことのできるデータ構造を含み、スケーラブルテンソルビデオチューブは、手およびオブジェクトを含む元の画像の部分、手のモーションプロファイル、ならびに車両車室内で各乗員によって使用されているオブジェクトのヒートマップに関する情報を編成するために使用される。
【0045】
ビデオチューブを生成するために、生ビデオストリーム上で手エリア検出がまず行われて、画像データ内のおおよその手エリアが位置特定される。次いで、近似された手エリア内でよりきめ細かい手検出器および行動指向のオブジェクト検出器が実行される。これらの手およびオブジェクトの位置の境界ボックスが決定およびマージされてビデオチューブが生成される。ビデオチューブには手およびオブジェクトの完全な姿が含まれるが、ビデオチューブのスケールは可能な限り小さく保たれる。例えば、ビデオチューブは、図1では、ラジオを操作している手のエリア内だけで生成され得る。ビデオチューブを可能な限り小さく保つことにより、行動を特定するために行われる必要がある画像処理の量が低減される。
【0046】
いくつかの実施形態では、手の動き(手のジェスチャなど)を、ビデオチューブに対してのみで行われるオプティカルフロー処理を使用して検出することができる。オプティカルフローは、乗員の片手または両手に関する時間的情報を生成する。手の動きの検出情報および検出オブジェクト情報をリカレントニューラルネットワーク(または他の自動判定技術)に供給して乗員の行動を検出および特定することができる。他の実施形態では、ビデオチューブの各手部分を特徴抽出器に供給することができる。次いで抽出された特徴に関連した時間的情報を、深層学習ベースの分類器に供給して行動を特定することができる。
【0047】
図2は、行動の機械認識の方法のハイレベル流れ図である。方法200は、1つまたは複数のプロセッサを含むことができる車両処理部を使用して車両において行われ得る。動作205で、ビデオソースを使用して生画像のビデオストリームが取得され、または読み取られる。ビデオソースは、車両(自動車、トラック、トラクタ、飛行機など)の車室内の撮像装置であり得る。ビデオストリームは、第1のオブジェクトおよび第2のオブジェクトの画像を含む。第1のオブジェクトは車両の乗員の手を含んでいてもよく、第2のオブジェクトはその手が相互作用しているオブジェクト(例えば、スマートフォン、飲用容器など)を含むことができる。
【0048】
動作210で、画像内の第1のオブジェクトの存在に基づいてグローバル関心領域(ROI)が検出される。ROI検出器が入力として生画像を受け取り、大まかな関心領域を出力する。画像フレームは画像フレーム内の第1のオブジェクトを検出するために処理される。行動の検出では、第1のオブジェクトは手であり得る。機械学習を使用して人間の手を表す画像内の特徴を認識することができる。ROIは、検出された手エリアおよび手エリアの特定の範囲内の周囲オブジェクトを含み得る。
【0049】
動作215で、画像フレームの部分内の行動アクティブエリア(AAA)が決定される。決定されたエリアによってビデオフレーム内の第1のオブジェクトの位置の境界が示される。各エリアは、必要な画像処理を低減するために反復的にサイズ調整され、最小化されるが、それでもなお第1のオブジェクトの画像全体を含む。車両処理部はアクティブエリア生成器を含む。アクティブエリア生成器は、手や行動に関連したオブジェクトなどのオブジェクトに関する情報を保持しながらビデオチューブを生成するための最小限のウィンドウ寸法を達成しようと試みる。画像の境界を示すアクティブエリアを設定するために使用される画像処理は、ROIを特定するために使用される画像処理よりも広範囲に及ぶ。第1のオブジェクトが手である場合、AAAが生成され、様々なスケールおよび様々な縦横比の探索ボックスを提案することにより、手および手の近くのオブジェクトの位置を使用して更新される。AAAは、ビデオチューブを生成するために使用される。ビデオチューブは、後の処理で行動を特定するために最適化される画像データの特定の編成である。
【0050】
図2の方法200の動作220から動作245を使用してビデオチューブ生成217が行われる。動作220で、(1つまたは複数の)ビデオチューブのキー特徴が決定される。車両処理部は、特徴生成器を含む。特徴生成器は、画像フレームのアクティブエリア内の第1のオブジェクトの動きおよび第2のオブジェクトの位置を決定する。動きを決定することは、現在のフレームと比較して前のフレーム内の第1のオブジェクトの画像の位置を追跡することを含み得る。第1のオブジェクトが人間の手である場合、特徴生成器は入力としてAAAを受け取り、手のモーションフロー情報や、検出された手が相互作用しているオブジェクトであり得る、1つまたは複数の第2のオブジェクトのヒートマップなどのキー特徴を出力し得る。アクティブエリアは反復的なウィンドウ最小化によって最適化されるので、動きを決定するのに必要な画像処理が低減される。
【0051】
動作225で、空間的正規化が行われる。空間的正規化では、特定の時刻「T」のビデオチューブが、その時刻「T」に取得されたキー特徴情報を使用して決定される。次いでこの情報は相互に連結され、各情報を画像のフレームおよび特徴データとして使用できる次元に正規化される。
【0052】
動作230で、キー特徴再配置が行われる。キー特徴再配置では、キー特徴フレームが2つの構造に編成される。第1の構造は、車両の複数の乗員についてのキー特徴情報を格納する。動作235で、方法は、キー特徴を異なる乗員に割り当てる識別割り当てを含み得る。第2の構造は、キー特徴フレームを後述するスケーラブルテンソルビデオチューブに編成する。特定の時刻「T」について取得されるキー特徴情報は、スケーラブルテンソルビデオチューブの一部分であり得る。動作240で、第1のオブジェクトおよび第2のオブジェクトの画像情報(手・オブジェクト情報)を使用してAAAを再最適化することができ、これをAAA追跡と呼ぶ。
【0053】
動作245で、時間的正規化が行われる。いくつかの態様では、手・オブジェクト対および動き情報を相互に連結することができ、画像フレーム内の手などのオブジェクトについてビデオチューブを最適化することができる。しかし、生成されたビデオチューブを行動認識プロセスに供給する前に、ビデオチューブを同じ寸法にスケール変更する必要がある。ビデオチューブをスケール変更(拡大または縮小)して、同じ寸法の複数のビデオチューブのストリームを取得することができる(時間的正規化)。
【0054】
動作250で、ビデオチューブを使用して行動認識が行われる。ビデオチューブを行動分類器に入力することができる。行動分類器は、第1のオブジェクトの決定された動きおよび1つまたは複数の第2のオブジェクトの位置に従って行動を特定する深層学習ベースの分類器であり得る。例えば、手エリアのビデオチューブを行動分類器に入力することができ、手・オブジェクト情報を使用して車両車室の乗員の行動を特定することができる。ビデオチューブは処理のエリアが小さいので、行動認識に必要な計算能力および時間がより少なくて済む。
【0055】
車両の車室の乗員の特定された行動を監視することができる。特定された行動に従って車両処理部により警報を生成することができる。例えば、機械認識は自動運転者支援システムに含まれていてもよく、特定された行動は、運転者が車両の操作に注意を払っていないことを指示し得る。警報は、スピーカを使用して生成された可聴警報であり得るか、または車両車室に存在するディスプレイを使用して生成された視覚警報であり得る。次いで運転者は是正措置を講じ得る。
【0056】
図2の方法を、車両処理部のモジュールによって実行することができる。各モジュールは、マイクロプロセッサ、ビデオプロセッサ、デジタル信号プロセッサ、ASIC、FPGA、または他のタイプのプロセッサなどの1つまたは複数のプロセッサを含み得るか、またはそれらに含まれ得る。各モジュールは、記載の動作を行うためにソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組み合わせを含むことができる。
【0057】
図3は、自動行動認識のシステムの一例のブロック図である。図3の例では、システム300は、行動認識装置310と、行動認識装置310に動作可能に結合されたビデオソース305とを含む。ビデオソース305は、近赤外(NIR)カメラまたはNIRカメラのアレイを含むことができ、画像データのフレームを含むビデオストリームを生成する。
【0058】
図3の例のシステム300は、車両301に含まれ、行動認識装置310は車両処理部であり得る。いくつかの実施形態では、行動認識装置310は1つまたは複数のビデオプロセッサを含むことができる。行動認識装置310は、ビデオストリームを受け取るポート315と、ビデオストリームの画像フレームを格納するメモリ320とを含む。行動認識装置310は、画像フレームを処理してビデオストリームを使用した行動の機械認識を行うための1つまたは複数のビデオプロセッサを含むことができる。
【0059】
行動認識装置310は、グローバルROI検出コンポーネント325と、動的AAA検出コンポーネント330と、キー特徴生成コンポーネント335と、空間的正規化コンポーネント340と、キー特徴再配置コンポーネント345と、時間的正規化コンポーネント350と、行動認識分類コンポーネント355とを含む。各コンポーネントは、マイクロプロセッサ、ビデオプロセッサ、デジタル信号プロセッサ、ASIC、FPGA、または他のタイプのプロセッサなどの1つまたは複数のプロセッサを含み得るか、またはそれらに含まれ得る。各コンポーネントは、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェアおよびファームウェアの任意の組み合わせを含むことができる。
【0060】
図4は、グローバル関心領域(ROI)の検出のための機械またはコンピュータ実装方法の一例の流れ図である。グローバルROIは、ビデオストリームからの画像データのおおよその、または大まかな手エリアである。方法400は、図3の行動認識装置310のグローバルROI検出コンポーネント325を使用して実行することができる。グローバルROI検出コンポーネント325は、例えば手などの、第1のオブジェクトの存在に基づいて画像フレームの部分を選択する。グローバルROI検出コンポーネントによる検出は、第1のオブジェクトの大まかな、またはおおよその検出である。第1のオブジェクトの存在の大まかな検出は、画像フレームの大きなエリアに適用される。大まかな画像検出は、画像レベルの類似性の方法を使用して第1のオブジェクトの存在を検出する高速の物体らしさ検出であり得る。グローバルROI検出コンポーネント325は入力として生画像データを受け取り、グローバルROIを出力する。グローバルROIは、手エリアおよび手エリアの特定の範囲内の周囲オブジェクトを含み得る。
【0061】
動作405で、生画像データがビデオソースから受け取られるか、またはメモリから取り出される。生画像は、カラー、グレーレベル、近赤外、熱赤外などとすることができ、イメージセンサアレイから取得される。画像データは、ビデオストリームの第1の画像フレームおよび後続の画像フレームを含む。
【0062】
これらの画像は、3D情報を使用して特定のカメラセットアップについてオフラインで学習することができるグローバル関心領域(ROI)でマスクされる。グローバルROIは、手、人体、オブジェクトなどの、行為および行動認識のための目立った重要なオブジェクトが存在する画像フレームの1つまたは複数の部分を画定する。車両において、グローバルROIは、(運転者および同乗者を含む)乗員の手がビデオ画像において潜在的に可視である車両車室のエリアを指す。言い換えると、グローバルROIは、すべての可能な手エリアおよび特定の範囲内の周囲オブジェクトを含む。これにより、車両の外部、例えば、フロントガラスやリヤウィンドウの背後またはサイドウィンドウからずっと離れたところにある手を、行動を特定する処理から除外することができる。
【0063】
グローバルROIは、連続処理が適用されることになるエリアを選択するために使用される。連続画像のグローバルROIの類似性スコアが高いかどうかを判断することにより(このスコアは、例えば、変化検出技術やロジスティック回帰法を使用して取得することができる)、グローバルROIを使用してよく似た画像をスキップして、異なるビデオ画像のみに焦点を合わせることにより行動認識プロセスを加速することも可能である。そのような類似性閾値は手動で設定されるか、またはデータから自動的に学習される。この閾値を使用して、スキップすべきフレームの数を制御することができる(これは、利用可能な計算リソースをより適切に使用するのに役立ち得る)。グローバルROIも、やはり異なる形状、色、スケール、および姿勢の目立った重要なオブジェクトを表す特徴を抽出する深層学習ベースの物体らしさ検出器を使用して抽出することができる。物体らしさ検出器および所与の訓練データセットを使用して、訓練画像内のすべての画像画素の物体らしさスコアおよび対応する境界ボックスが取得され、空間マップに集約され、空間マップはグローバルROIを設定するために使用される。
【0064】
動作410で、画像フレーム間の類似性が決定される。いくつかの実施形態では、グローバルROI検出コンポーネント325は、空間的制約コンポーネント(図示されていない)を含む。生画像フレームは、類似性推定アルゴリズムを使用して画像の類似性スコアを決定し得る空間的制約コンポーネントに供給される。類似性推定では、類似した画像がより高い類似性スコアを与えられる。類似性スコアは、第1の画像と第2の画像との間のグローバル類似性を反映し得るか、または第1の画像フレームの第1のウィンドウ表示部分と第2の画像フレームの第1のウィンドウ表示部分との間の類似性を反映し得る。特定の実施形態では、ロジスティック回帰を使用して画像の類似性スコアが決定される。変形では、ロジスティック回帰の出力は2値であり、画像は類似または非類似とみなされる。
【0065】
図4の動作415で、類似性推定は、画像における手検出を加速するために、類似性スコアに従って類似している指示される画像をスキップする。画像をスキップすることを決定する類似性スコア閾値は、手動で指定する(例えばプログラムする)か、または行動認識装置によって訓練データから学習することができる。手検出処理でスキップまたは省略されるフレームの数は、類似性スコア閾値によって決定される。初期類似性スコアは、最初の画像が受け取られたときに第1のオブジェクトの初期検出をトリガするために、空白とされるかまたはゼロに設定され得る。
【0066】
動作420で、2つのフレーム間の類似性スコアが指定された類似性閾値を下回る場合、第2の画像フレームで手検出がトリガされ実行される。グローバルROI検出器は、オブジェクト検出を行うために機械学習コンポーネントを含み得る。機械学習コンポーネントは、深層学習技術(畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、または長/短期記憶(LSTM)など)を利用して、関心対象の第1のオブジェクトを表す画像内の特徴を認識することを学習し得る。いくつかの態様では、これらの画像特徴は、手を指示する異なる形状、色、スケール、および動きを含むことができる。手検出の出力は、カテゴリおよびタイプの一方または両方に関する検出の信頼度であり得る。検出の信頼度は、正しい検出の確率であり得る。第1のオブジェクトの検出の出力は、オブジェクト検出の境界を画定する境界ボックスでもある。境界ボックスを、画像エリアにおける和集合に対する共通部分を計算するために使用することができる。図5は、画像処理ウィンドウのための和集合に対する画像(IoU)の図であり、IoU=(共通部分の面積)/(和集合の面積)である。
【0067】
図4に戻って、動作425で、IoUおよび信頼度を使用して、画像検出の結果が信頼できるかどうかが判断される。IoUの閾値および信頼度は、手動で指定するか、または類似性スコア閾値と同様の機械訓練を使用して決定することができる。IoUまたは信頼度のどちらかが閾値を満たさない場合、画像はスキップされ、方法は405に戻って解析のための次の画像を取得する。435で、グローバルROIが画像データのフレームのために設定される。境界ボックスの出力はビデオチューブの初期グローバルROIとして扱われる。
【0068】
図3に戻って、行動認識装置310は、グローバルROI検出コンポーネント325によって決定されたグローバルROIを使用して行動アクティブエリア(AAA)を決定する動的行動アクティブエリア検出コンポーネント330を含む。AAAは、実際のビデオチューブの画像エリアの決定に使用される。決定されたエリアによってビデオフレーム内の関心対象のオブジェクト(手など)の位置の境界が示される。動的AAA検出コンポーネント330は、手および行動に関連したオブジェクトに関連した情報を保持しながらビデオチューブの最小限のウィンドウ寸法を達成しようと試みる。
【0069】
図6は、AAAを決定する方法の流れ図である。動作605で、AAAごとのローカル関心領域を見つけるために、グローバルROIおよび前の行動アクティブエリア(AAA)が組み合わされる。ローカルROIは、探索エリアを決定するために使用され、グローバルROI内で前のAAAを追跡した後に前のAAAから導出される。ローカルROIは、手および周囲オブジェクトの完全な検出を確実にするためにそのAAAより大きいサイズを有する。探索エリアまたはボックスを使用してグローバルROIにおいて関心対象のオブジェクトを位置特定することができる。いくつかの実施形態では、異なるスケールおよび縦横比の探索ボックスが探索エリアとして提案される。決定されたグローバルROIのおおよそのオブジェクトエリアに基づき、異なるスケールおよび縦横比(または長さ対幅比)の探索エリアが生成される。いくつかの態様では、スケールおよび長さ対幅比の事前定義されたセットを使用して、手エリアの境界ボックスを増倍して探索ボックスを生成することができる。この事前定義されたセットは、経験に基づいて手動で設定するか、または、例えばクラスタリング法などによって、元のデータから自動的に学習することができる。これらの生成された探索エリアに基づいて手およびオブジェクトの検出を行うことができる。
【0070】
図7A〜図7Dに、手およびオブジェクトの検出のための探索ウィンドウまたは探索ボックスの決定を示す。図7Aは、第1のオブジェクトの最初に特定されたおおよそのエリアを表している。いくつかの態様では、初期手エリアの中心が決定され、探索エリアを特定するためにその中心を基準として手エリアのウィンドウのサイズがスケール変更される。図7Bは、スケール変更されるウィンドウの長さおよび幅を変更しながら初期探索エリアのスケールを縮小する例である。ウィンドウ表示のスケールは1対nだけ縮小され、nは正の整数である。図7Cは、初期探索エリアのスケールを維持する例であり、図7Dは、初期探索エリアのスケールを拡大する例である。使用されるスケール変更を事前定義し手動で指定することができ、またはスケール変更を機械訓練によって決定することができる。例えば、スケール変更を、クラスタリング法を使用して初期データから機械学習することができる。
【0071】
図6に戻って、提案された探索エリアにおいて動作610の検出を行って、第1のオブジェクトの画像を特定することができる。動作612で、手検出の結果に基づいて探索領域を更新することができる。動作612で、例えば検出された手が相互作用している可能性があるオブジェクトを特定するために、探索エリアにおいて動作612のオブジェクト検出を行うことができる。第1のオブジェクトのこの反復の画像検出は、本明細書で前述された大まかな探索エリア検出よりも詳細である。画像検出の結果に基づいてウィンドウのサイズを縮小することによって、ビデオチューブのウィンドウサイズを最小化することができる。いくつかの態様では、現在のビデオフレーム(画像)における手の位置を見つけるためにローカルROIにおいて手検出器が適用される。各AAAは単一の手に対応し得る(例えば、AAAは手領域に基づくものである)。
【0072】
図8は、より詳細な画像検出の一例の図である。いくつかの態様では、手のおおよそのまたは大まかなエリア805およびサイズ変更された探索エリアウィンドウが深層畳み込みニューラルネットワーク810に入力される。深層畳み込みニューラルネットワーク810は、サイズ変更されたウィンドウ内の手およびオブジェクト815の検出のために訓練される深層学習ベースの画像検出器であり得る。特定の実施形態では、深層学習ベースの画像検出器は、車両車室内で起こる行動に関する手およびオブジェクトの検出のために訓練される。
【0073】
この手およびオブジェクトの検出の詳細バージョンは計算集約的であり得る。しかしながら、詳細な手検出は探索エリアウィンドウの境界内で動作し、これにより手またはオブジェクトを特定するために処理されるべき画像の面積が縮小される。これにより検出が加速し得るが、同時に、手を含む確率がより高いエリアに検出の焦点を狭めることもでき、そのため誤検出の可能性が下がる。加えて、グローバルROI検出器の空間的制約コンポーネントは、(例えばロジスティック回帰を使用して)画像類似性に基づいて画像の処理をスキップできるか判断することができる。
【0074】
グローバルROI検出コンポーネントによって使用される大まかなまたはおおよその画像検出は、第1のタイプのオブジェクト(車両における行動認識タスクのための人間の手など)を含み得る画像の部分を特定および選択する。これに続いて、AAA検出コンポーネントによってさらに詳細かつ正確で、しかも潜在的により計算集約的なオブジェクト検出が行われる。2段階の手検出プロセスにより全般的な計算負荷が低減され、検出器が手を含む可能性がより高いエリアに焦点を合わせられるようにすることによって検出精度が向上する。大まかな画像検出は高速で、計算上安価であり、画像の大きな部分に適用され、好ましくは偽陰性率が低い(すなわち、真の手エリアのいずれも見逃さないが、非手エリアを手として誤って特定または選択する可能性もある)。対照的に、詳細なオブジェクト検出は偽陽性率が低い(すなわち、大まかな画像検出によって誤って特定されている可能性がある非手エリアを正しく特定する)。加えて、大まかな画像検出は、手領域のウィンドウサイズに関して言えば正確ではない可能性もある。
【0075】
これらのトレードオフを考慮すると、大まかな画像検出は、ロジスティック回帰、追跡アルゴリズム、(単純な領域記述子と、サポートベクターマシン、ブースティング、ランダム木などの従来の分類法とを使用する)従来の分類器、および深層学習ベースの分類器のうちの1つまたは複数などの画像レベルの類似性の方法を使用する高速の物体らしさ(人間の手など)検出であり得る。詳細なオブジェクト検出は、従来の分類器および深層学習ベースの分類器であり得る。大まかな画像検出と詳細なオブジェクト検出の両方が深層学習モデルを使用する場合、大まかな画像検出は、低い空間分解能で動作し、深層アーキテクチャの初期層(完全に接続された層に接続された最初のいくつかの畳み込み層など)のみを使用し、オブジェクトウィンドウサイズを推定せずに2項分類器として訓練され、またはこれらすべての組み合わせであり得る。詳細なオブジェクト検出は、大まかな画像検出によって生成された特徴マップを使用し、ずっと深い処理層を使用し、2項分類器として働くことに加えてオブジェクトウィンドウサイズを逆行させることもできる。
【0076】
詳細な手検出は常に正しい結果を保証するとは限らない。いくつかの実施形態では、動的AAA検出コンポーネント330は、詳細な画像検出の結果を、偽陽性検出または偽陰性検出を取り除くか、または誤った検出を判断するように設計された誤検出フィルタに適用し得る。これにより、検出された同じ手およびオブジェクトについて一貫したカテゴリが得られ、行動認識についての信頼できる情報が提供され得る。手およびオブジェクトの新しい検出位置が、手およびオブジェクトの有効なカテゴリに基づいて更新される。
【0077】
ビデオチューブのウィンドウは動的にサイズ調整され、探索領域は、第1のオブジェクトおよび第2のオブジェクトの検出に基づいて更新される。第1の検出された位置は、周囲オブジェクトを検出するための探索領域の更新に使用され得る。異なる用途では、AAAを、人体、顔、脚、動物などを含む異なるオブジェクトに基づくものとすることができる。ビデオチューブの生成の一部として、ビデオプロセッサは、ビデオチューブの分解能を最小化して、行動の特定に必要な画像処理の量を最小化しようと試みる。ビデオチューブのウィンドウサイズは、最小化されるがそれでもなお特定された第1のオブジェクトエリアを含むウィンドウサイズを見つけるために反復的に決定される。いくつかの実施形態では、ウィンドウサイズは、図7A〜図7Dに示される例示的な方法に従って反復的に決定される。ウィンドウサイズは、決定されたおおよそのエリアに基づいて反復的に更新され、異なるスケールおよび長さ対幅比の探索エリアまたはウィンドウが生成される。
【0078】
図6に戻って、動作617で、対応する手ボックスと各周囲オブジェクトとの間のオーバーラップスコアを検出された手ごとに計算することができる。図5に示されるIoU(和集合に対する共通部分)は、2つの境界ボックス間のオーバーラップエリアを測定するために使用され得る。しかしながら、周囲オブジェクトは通常手によって遮蔽されているので、多くの場合、検出できるのは部分的なオブジェクトだけであり、そのため低いIoUスコアが生成され、無関係なオブジェクトとして扱われる可能性がある。2つの境界ボックス間の距離がスコアを計算する別の尺度である。しかしながら、距離は境界ボックスのサイズに左右される。例えば、境界ボックスAと境界ボックスBとがCまで同じ距離を有する。境界ボックスAのみが周囲オブジェクトとみなされるべきである。したがって、境界ボックスを決定する別の方法は、境界ボックスの距離とサイズの両方を考慮に入れたオーバーラップスコアを計算し、同時に遮蔽されたオブジェクトと手の画像との間のオーバーラップを測定することもできることである。
【0079】
オーバーラップを計算する式の一例は以下のとおりである
【数1】
式中、
【数2】
および
【数3】
は、それぞれ、オブジェクトと手との境界ボックスパラメータである。したがって、オーバーラップスコアを以下のように計算することができる。
オーバーラップスコア=αe−βoverlap area(2)
式中、αおよびβは事前設定係数である。
【0080】
オブジェクトおよび手が互いに完全にオーバーラップする場合、オーバーラップエリアは最小値0を達成し、オーバーラップスコアは最高スコア1を達成する。0〜1のオーバーラップエリアでは、手とオブジェクトとの間でオーバーラップが発生する。オブジェクトと手が同じサイズであり、互いに隣接している場合、オーバーラップエリアは1である。1より大きいオーバーラップエリアでは、オーバーラップスコアは急速に0に低下する。AAAボックスパラメータの更新された式は以下のように定義される。
top=s*min(tophand,topobj)+(1−s)*tophand(3)
left=s*min(lefthand,leftobj)+(1−s)*lefthand(4)
bot=s*max(bothand,botobj)+(1−s)*bothand(5)
right=s*max(righthand,rightobj)+(1−s)*righthand(6)
式中、(top,left,bot,right)、(tophand,lefthand,bothand,righthand)、(topobj,leftobj,botobj,rightobj)は、それぞれ、AAAボックス、手領域、およびオブジェクト領域のパラメータの代替表現である。変数は式(2)からのオーバーラップスコアである。
【0081】
オーバーラップスコアが高くないオブジェクトは使われなくなり、更新されたAAAがその後それらのオブジェクトを排除することになる。オーバーラップスコアが高いオブジェクトについては、それらの境界ボックスがAAAにマージされる。
【0082】
他の方法を使用してビデオチューブのウィンドウサイズを反復的に更新することができる。いくつかの実施形態では、動的ウィンドウサイズ調整は、決定された手の動きの軌跡のウィンドウ追跡を含む。図9は、動的AAA検出コンポーネント330に含まれ得る動的ウィンドウ表示コンポーネント930の一例のブロック図である。入力として現在のウィンドウサイズから開始して、動的ウィンドウ表示コンポーネント930は手の動きの軌跡を使用して次のウィンドウサイズおよび位置を予測する。予測されたウィンドウ内で手およびオブジェクトの画像検出が行われる。予測された新しいウィンドウのサイズおよび方向が手画像の境界を含むように正しく展開するかどうかを確認するために境界ウィンドウまたはボックスが生成される。新しい予測されたウィンドウがすべての検出された境界ボックスを含む場合、動的ウィンドウ表示コンポーネント930は新しいウィンドウサイズを次のウィンドウサイズとして出力する。新しいウィンドウサイズは後続の画像フレームにおけるビデオチューブのために現在のウィンドウに取って代わる。そうではなく、検出された手画像の境界が次のウィンドウを越えて延在する場合、現在のウィンドウに対して1組の事前定義された長さ対高さ比を適用する複製プロセスが(例えばスイッチ932によって)トリガされることになる。
【0083】
図10は、動的ウィンドウ表示コンポーネント930を使用して行われるトリガされた動的ウィンドウ表示のプロセスの一例の図である。この例は、すべての関連オブジェクトが完全に検出されるようにするために、検出されたオブジェクト(人間の顔など)のサイズを収容するようにウィンドウのサイズが変更されマージされることを示している。例えば、図10の部分的に検出された顔がオブジェクト検出の期間に失われる可能性がある。部分的なオブジェクトではなくオブジェクト全体を検出すれば、ウィンドウサイズを最小化するときにオブジェクトを見失うのを防ぐのに役立つ。オブジェクトが部分的に検出される場合、動的ウィンドウ表示コンポーネントは、オブジェクト全体を検出するために異なる縦横比およびサイズを使用してウィンドウを変更し得る。検出された手およびオブジェクトのすべての境界ボックスをマージすることにより、ビデオチューブを処理するための次のフレームとして手および関心対象のオブジェクトを含む最小限のウィンドウが生成される。AAAは、すべてのオーバーラップするオブジェクトおよび手を含む。
【0084】
図6に戻って、620で、AAAは、ウィンドウ表示および第1のオブジェクトの検出を使用して生成される。AAAは、実際のビデオチューブを作成するために使用される。いくつかの態様では、ビデオストリームは、手の識別ごとに編成できる複数のAAAを生成することができる。手ごとに1つのAAAを生成し得る。各AAAは、それが表す手の識別に割り当てられる。AAA内のオブジェクトは、そのAAAの識別である識別ラベルを割り当てられる。オブジェクトはしばしば交換されるか、または相互作用行動において複数の人に結び付けられるので、各オブジェクトに複数の識別を割り当てることができる。オブジェクトタイプおよび手の識別に関する情報はレジストリに記録されてもよく、レジストリはビデオストリーム全体からのAAA間の関係を保持し、これらの関係をレジストリの助けを借りて(図17に関連して後述される)スケーラブルテンソルビデオチューブにおいて後で回復することができる。
【0085】
AAAは、人間の行動、特に手に関連した行動のみに焦点を合わせるように設計することができる。AAAの決定により、画像内の背景クラッタおよび無関係な視覚情報が大幅に抑制される。これにより行動認識は、クラッタ、ノイズ、および無関係な詳細に対してより弾力的かつ非常にロバストになる。またAAAの決定により、認識アルゴリズムの実行時速度も向上し、よって、コンピューティングリソースの必要が低減され、低コストのコンピューティングプラットフォームでの処理が可能になる。たとえAAAが画像フレームよりもずっと小さいビデオの部分であっても、AAAはやはりターゲット行動、特に手を含む行動に関するすべての必要な目立った情報を保持する。
【0086】
AAAにはROIとのいくつかの違いがある。コンピュータビジョンおよび光学文字認識において、ROIは考慮中のオブジェクトの境界を画定する。対照的に、AAAは、目立った、考慮中の行動の認識に関連したオブジェクトのクラスタの境界を明確に画定する。AAAは、手とのオーバーラップスコアおよび距離基準に応じて新しいオブジェクトを動的に付加するか、または無関係なオブジェクトを除去する。ROIは単に画像パッチを定義する。しかしながら、AAAのレジストリは、オブジェクトクラスタの最小利用可能画素エリアに加えて情報も含む。レジストリは、ビデオストリーム全体からの異なるAAA間の関係を記録するが、ROIはそのような知識を表現することも記録することもできない。
【0087】
次いで、ビデオチューブの内容を提供するためにAAAにおいてキー特徴が定義される。図3のキー特徴生成コンポーネント335がキー特徴を決定する。いくつかの態様では、画像データ内の手ごとに手の関心領域が形成された後、手ごとに識別(手ID)を受け取り得る。手IDは、手がどの乗員に属するかも識別し得る。キー特徴生成器はAAAを入力として使用してキー特徴を特定する。
【0088】
図11は、自動行動認識のためのシステムの動的AAA生成コンポーネント1130、キー特徴生成コンポーネント1135、およびキー特徴再配置コンポーネント1145を示すブロック図である。キー特徴生成コンポーネント1135は、モーションフローコンポーネント1137と、ヒートマップコンポーネント1139とを含み得る。
【0089】
いくつかの態様では、手ごとのAAAが決定され、各AAAに識別(対応する手がどの乗員に属するかを指示する手IDなど)が与えられた後、キー特徴生成コンポーネントはAAAのキー特徴を計算する。特徴は、元の画像(色、強度、近赤外など)画素値、オブジェクトの位置、オブジェクトモーションフロー、およびオブジェクトヒートマップを含むことができ、AAAごとに3Dデータ構造に配置することができる。これらの特徴は、深層ニューラルネットワーク、特に深層畳み込みネットワークの特徴応答でもあり得る。この3Dデータでは、最初の2つの次元は空間的であり(画像領域に対応する)、第3の次元は各層が1つの特徴に対応する層を有する。これを、色、動き、特徴応答の小さいAAAのサイズ調整されたフレームが第3の次元で互いに連結されているものとみなすことができる。
【0090】
これらは、キー特徴生成コンポーネント1135によって実行された異なるプロセスである。モーションフローコンポーネント1137は、ビデオチューブで追跡されている手のモーションプロファイルのキー特徴を生成する。モーションプロファイルは、手ごとの前の位置および現在位置(前のフレーム内対現在のフレーム内の手位置など)、ならびに手がどれほどの速さで動いているかに関する情報を提供することができる。モーションフローのこれらのキー特徴は、システムに手に関する時間的情報を提供することができる。時間的情報は、システムが追跡されている手の行動をより適切に推測することを可能にし得る。例えば、乗員が飲む動作は、手全体がカップを持ちながらカップホルダから人の顔まで移動する、「手全体」タイプのグローバルな動きを有し得る。逆に、スマートフォンでテキストメッセージを打つ動作は、手全体の動きを伴い得るが、テキストメッセージを打つ動作は、手全体の大きな動作範囲を常に伴うとは限らない。テキストメッセージを打つ動作は、手全体の動きよりも指の動きにより関連する可能性があり、テキストメッセージを打つ動作は、モーションプロファイルが手全体の動きよりも多くの指の動きを指示する場合に推測され得る。モーションフローコンポーネント1137は、手の動きの速度も決定し得る。手の動きおよび手の速度の情報を知ることにより、手が将来の画像フレームにおいてどこに位置する可能性が最も高いかの予測を向上させることができるので、手追跡における手の軌跡の改善された決定が可能になる。
【0091】
ビデオチューブのAAAが決定されると、ビデオチューブは、ビデオストリームの画像フレームの1つまたは複数のウィンドウ表示部分からの画像のシーケンスを含む。ビデオチューブの画像のシーケンスを使用してモーションプロファイル特徴を決定することができる。いくつかの実施形態では、ビデオチューブにおいて手画像を含む画像フレームの画素が特定される。手画像を含む画素の変化は、モーションフローコンポーネント1137によって追跡され得る。シーケンスの画像フレーム間で手を含む画素の変化を追跡することにより、画素レベルの動く手の方向の知識を提供することができる。追跡をビデオチューブに制限することにより、画素の変化を追跡するのに必要な処理が低減される。この追跡をオプティカルフローと呼ぶことができる。オプティカルフローは、行動を決定するために行動認識ネットワークに供給できる指先および関節点ごとの情報を提供する。
【0092】
図12に、オプティカルフローを使用したモーションフロー情報の決定の結果の一例を示す。左側の画像は深度カメラを画像ソースとして使用して取得された元の手画像を表している。右側の画像は、手が深度カメラに向かって前方へ移動した後の同じ手画像を表している。右側の画像の下は、動いている手画像のモーションプロファイルの表現である。モーションプロファイルは、動いている手の軌跡を予測するために使用することができる。
【0093】
図11に戻って、ヒートマップコンポーネント1139は、乗員の行動を決定するために使用することができるビデオチューブにおけるオブジェクトの空間的位置およびタイプに関連したヒートマップ情報を生成する。ヒートマップコンポーネント1139は、ヒストグラムの働き方と同様の働きをする。ヒストグラムは、数値データの数値分布を示す。同様に、本開示は、ヒートマップを利用して、車室内の手が相互作用している1つまたは複数のオブジェクトの検出分布を表す。図11の例では、AAAにおいてK個の手およびN個のオブジェクトが検出されており、KおよびNは正の整数である。
【0094】
K=6であり、連続した画像フレームのストリームにおいて6つの手が検出されていると仮定する。これら6つの手のうち、2つはスマートフォンと相互作用しており、1つの手は飲用カップと相互作用している。したがって、ヒートマップ表現は、画像フレームにおいてカップより多くのスマートフォンが検出されたので、スマートフォンに対してカップより高い「熱」分布を示すことになる。ヒートマップ分布は、本開示のシステムが、システムが検出できる行動のリストをふるいにかけるのに役立つ。ヒートマップ分布は、検出された行動に確率を割り当てるために使用することができる。スマートフォンのヒートシグネチャが高いことは、例えば、車室内の行動が「飲む」または「食べる」よりも「テキストメッセージを打つ」により関連していることを意味する。より高い確率を割り当てることにより、システムが、車両内で起こっている行動をより適切に検出することが可能になる。
【0095】
オブジェクトヒートマップは、ある画素を中心とする特定のクラスのオブジェクトの尤度を表す二次元(2D)マップである。その画素を中心とするオブジェクトがある場合、そのヒートマップ値は高くなる。そうでない場合、ヒートマップ値は小さい。オブジェクトヒートマップのサイズはAAAのサイズと同じである。各ヒートマップは最終キー特徴における特徴層である。
【0096】
図13は、ヒートマップ生成の図である。ヒートマップは、オブジェクトの複数の検出が取得された後に同じオブジェクトがどこに位置するかの位置確率を取得するために使用される。図13にはフォンヒートマップ1305および手ヒートマップ1310が示されている。ヒートマップ内のスポットは、複数の検出が行われた後で検出されたオブジェクトが位置する可能性がより高い位置を表し得るより熱いスポットである。
【0097】
ヒートマップコンポーネントは、確率密度またはヒストグラムを計算する。ヒストグラムは、数値データの数値分布を示す。同様に、本開示は、ヒートマップを利用して、車室内の手が相互作用している1つまたは複数のオブジェクトの検出分布を表す。例えば、連続したフレームのストリームにおいて複数の手が検出されているとする。これらの手のうち、2つはスマートフォンと相互作用しており、1つの手はカップと相互作用している。したがって、スマートフォンのヒートマップは、スマートフォンエリアの画素により高い熱応答、すなわちより大きいヒートマップ値を示すことになり、カップのヒートマップは、カップの画素により高い応答を示すことになる。
【0098】
オブジェクトをより適切に追跡および局所化するとともに、システムが、手に近いオブジェクトに基づいて起こる可能性がより高い行動に確率を割り当てるのを支援するために、ビデオチューブの一部として、マルチオブジェクトヒートマップを組み込むことができる。ヒートマップは、手およびオブジェクトの検出器の直後に取得される。これらを、AAA内のみで後で計算することもできる。
【0099】
異なるオブジェクトクラス(手、顔、スマートフォン、本、水筒、食物、および他の多くを含む)に対応する2Dヒートマップを3Dデータ構造に配置することができる。ある時間間隔にわたる情報を収集する代わりに、行動認識システムは、特定の時刻における情報を取り込み、次いでその瞬間情報を表すビデオチューブを構築することができる。この情報は、検出された手およびオブジェクト、モーションフロー情報、ならびにオブジェクトのヒートマップを含む。
【0100】
計算されたヒートマップ特徴は、空間検出情報を外観特徴に直接融合することによって行動認識システムを大幅に強化する。これは、手およびオブジェクトの検出器の検出結果を行動分類ソリューションに組み込む非常に効率的な方法である。これらのヒートマップも、システムが、システムで事前定義されている、またはシステムがすでに学習している行動のリストをふるいにかけることを可能にする。例えば、スマートフォンヒートマップのヒートマップ値が高いことは、行動が「飲む」または「食べる」よりも「テキストメッセージを打つ」により関連していることを意味する。加えて、ヒートマップは、手が相互作用している、または相互作用することになるオブジェクトの位置分布を理解するためにも使用される。オブジェクトヒートマップは、システムが、手の位置に対する複数のオブジェクトの位置を理解することを可能にし、システムが、オブジェクトの位置、オブジェクトの手への近接性、さらにはオブジェクト識別に基づいて手が行おうとしている行動の尤度を決定することも可能にする。
【0101】
AAAとROIとの違いは別として、AAAから生成されたキー特徴はROIと異なる内容も有する。ROIは関心対象エリアのトリミングされた画像パッチを指す。しかしながら、AAAからのキー特徴は、モーションフローフレームやオブジェクトヒートマップのような抽象化された特徴マップである。また、これらのキー特徴は、手およびオブジェクトに関するより多くの情報を時系列で提供する。
【0102】
図14は、ビデオチューブの生のキー特徴の図である。このビデオチューブの例は、手1の画像およびモーションフロー1305、手2の画像およびモーションフロー1410、ならびにヒートマップストリーム1415のキー特徴を含む。生のキー特徴情報は、ビデオチューブを生成するために使用される。
【0103】
キー特徴がキー特徴生成器を使用して特定されると、空間的正規化コンポーネント340は特定の時刻Tに取得されたキー特徴情報を使用してその特定の時刻Tのビデオチューブを生成する。このキー特徴情報は、検出された手およびオブジェクト、モーションフロー情報、ならびにシステムが検出することができるオブジェクトのヒートマップを含む。次いでこの情報は相互に連結され、各情報をビデオチューブのフレームとして使用できる空間次元に正規化される。
【0104】
図15は、空間次元への画像フレームの正規化を示す図である。左側は、検出された「K」個の手およびそれらそれぞれのキー特徴のフレームである。キー特徴フレームは、手画像フレーム1505またはパッチ、モーションフロー情報1510、およびヒートマップ情報1515を含む。左側の上のフレームは左側の下のフレームと異なるスケールを有する。右側のフレームは同じスケールに正規化されたフレームを示している。
【0105】
異なる乗員の識別情報をキー特徴フレームの手部分に割り当てることができる。識別割り当ては、異なる手および手の行動を区別するのに重要であり得る。識別割り当ては、運転者と同乗者の行動を認識および区別するのに役立ち得る。同乗者は、警報を生成せずにある程度の注意散漫を示す行動を行うことを許容され得る。
【0106】
フレームごとのすべての手・オブジェクト対および動き情報が相互に連結され手ごとの最適化されたビデオチューブが作成されると、最適化されたビデオチューブを図3の行動認識分類コンポーネント355に供給することができる。しかしながら、キー特徴情報の多少の追加スケール変更および多少の再配置により、行動認識計算の効率を改善することができる。
【0107】
時間的正規化コンポーネント350は、すべての生成されたビデオチューブを同じ寸法にスケール変更して時間的正規化を行う。ビデオチューブが均一にスケール変更されるべきである理由は、手が必ずしも全フレームの同じ位置に見えるとは限らず、全フレームで同じサイズではない可能性があるからである。いくつかの手がフレームごとに他の手よりイメージセンサからさらに離れている場合もある。さらに、複数の手がイメージセンサから同じ距離のところにあるが、異なるサイズを有する(大人の手対子供の手など)場合もある。したがって、ビデオチューブ内の手画像は、同じ寸法の複数のビデオチューブのストリームを生成するためにスケール変更(拡大または縮小)される(時間的正規化)。すべての画像で同じ寸法を有することにより、行動認識システムが、ある期間にわたって抽出されたすべてのビデオチューブフレームを連結し、次いで、指定された(例えばプログラムされた)時間量にわたって取得されたすべてのビデオチューブからのすべてのフレームを含む新しいビデオデータを形成することが可能になる。
【0108】
図16は、ビデオチューブの正規化の図である。図16の左側は、4つの異なるスケールのビデオチューブである。右側では、ビデオチューブが同じサイズにスケール変更されて示されている。いくつかの実施形態では、時間的正規化コンポーネント350は、平均サイズビデオチューブ機構を実施する。この機構では、すべての手のすべてのビデオチューブが取得されると、組み合わされたすべてのビデオチューブの平均寸法が決定され、すべてのビデオチューブが平均寸法にスケール変更される。
【0109】
図3に戻って、行動認識装置310は、キー特徴情報を、行動認識プロセスに効率的な2つの異なるビデオチューブデータ構造、すなわち、時空間ビデオチューブとスケーラブルテンソルビデオチューブとに再配置するキー特徴再配置コンポーネント345を含む。キー特徴再配置コンポーネント345は、2つの異なる構造の一方または両方を生成するように構成され得る。
【0110】
図17は、2つの構造のキー特徴の再配置を示す流れ図である。上段の流れは時空間ビデオチューブのものであり、下段の流れはスケーラブルテンソルビデオチューブのものである。第1の構造を形成するために、キー特徴再配置コンポーネント345は、車両車室内の複数の乗員からすべての検出された手部分を取り出し、それらすべてを相互に連結する。各手部分は、手画像部分、手のモーションフロー、および検出された1つまたは複数のオブジェクトのヒートマップを含むキー特徴フレームを含む。この構造は、複数の乗員がROI情報を最大限に収集するための情報を格納する。
【0111】
時空間ビデオチューブ構造は、1705で同じAAAのキー特徴を3Dボリュームに配置する。次いで、すべてのAAAに同じ空間サイズを持たせるために、同じ画像内のすべてのAAAに対して空間的正規化が行われる。次いで、1710および1715で、すべてのAAAが、AAA識別(IDなど)を基準として順次に連結される。最終的な時空間ビデオチューブを得るために異なる画像の3Dデータに対して時間的正規化が行われる。このタイプのビデオチューブは同じ空間サイズを有する。フレームごとに、キーフレームの長さは、手の数、したがってAAAの数に応じて変化し得る。固定数のAAAを組み込むこともでき、欠けているAAAを空白のままとすることができる。
【0112】
スケーラブルテンソルビデオチューブでは、キー特徴再配置コンポーネント345は、テンソルビデオチューブについてのキー特徴情報を編成する。スケーラブルテンソルビデオチューブを、行動認識プロセスに必要な情報のみを含む1つの単一生画像の限局画像とみなすことができる。
【0113】
1720で、別々のキー特徴が、それらの識別(人、左、手、右手など)を基準として各々空間的に連結される。この空間的に連結された画像は、画像のすべてのAAAの同じモダリティコンポーネントを含む。例えば、空間的に連結されたカラー画像は、その画像のAAAのすべての色層を含む。空間的に連結された画像は対応するAAA画像の複数の行を含むことができ、各行は同じ人、例えば人の両手の特徴(例えば色、モーションフローなど)を含み、行の数はビデオ内の人の数に依存し、その数まで拡張できる。これを達成できるのは、AAAの識別が分かっているからである。よって、空間的に連結された画像は、すべてのAAAを取り込む。特定の期間にわたって検出されている人の片方の手が欠けている場合、手が失われている状態を示すために対応する部分は空白(ゼロ)であり得る。しかしながら、乗員が以前に一度も検出されたことがない場合、空間的に連結された画像は、その乗員に新しい行を作成しない場合もある。ビデオフレーム(画像)について、1725で、連結された画像は、ビデオフレームごとに同じ特徴の順序を保つ3Dボリュームに配置される。1730で、ビデオストリームのテンソルビデオチューブを取得するためにすべてのビデオフレームのすべての3Dボリュームが順次に連結される。
【0114】
図18は、スケーラブルテンソルビデオチューブの図式的三次元表現の図である。図のy方向に、車両車室の乗員ごとに1行が生成される。x方向に、各乗員の手ごとに1つずつ2列が形成される。z方向に、キー特徴データのフレーム(フレーム1〜フレームK)が乗員ごと、乗員の手ごとに編成される。固定された監視チャネルのセットを使用する代わりに、このキー特徴編成のアプローチは、車室内の乗員の存在に関してスケーラブルであり得る。限局画像の各フレームは、ビデオストリームのスケーラブルテンソルビデオチューブを含む。
【0115】
各手部分は、手画像部分またはパッチ、手のモーションフロー、およびオブジェクトのヒートマップのようなキー特徴フレームを含む。すべての手部分が同じ生画像フレームに紐付けられる。限局画像は、車室内のすべての乗員からのすべての手部分が同時に監視されることを可能にする。特定の期間にわたって検出されている乗員の手が欠けている場合、手が失われている状態を示すために対応する手部分はマスクされる(例えば空白であるかまたは空白で埋められる)ことになる。以前に検出されたことがない乗員が検出された場合には、新しい乗員に識別が割り当てられてもよく、新しい乗員にスケーラブルテンソルビデオチューブの新しい行を作成することができる。また、新しい乗員のスケーラブルテンソルビデオチューブに対応するモーションプロファイルおよびオブジェクトヒートマップを含め、配置することもできる。
【0116】
テンソルビデオチューブは、特定の人の特定の手を探すのが非常に便利になる人の手の識別の知識を用いて作成される。これは、監視ビデオで特定のチャネルを探すのと同様とみなすことができる。また、スケーラブルテンソルビデオチューブの各行は1人の人に対応するので、テンソルビデオチューブの各行を分類器に直接供給して、人の行動全体を取得することができる。人の行動全体を決定するために個々の手の行動を検出し、別の分類器を必要としなくて済む。
【0117】
正規化されたビデオチューブまたはさらにスケール変更および再配置されたビデオチューブが行動分類コンポーネントに入力供給されて、例えば、特定されたアクティブエリア内のオブジェクトの決定された動きおよび位置を使用して、乗員の行動が特定される。図19は、ビデオチューブに基づくものである特定の行動認識ネットワークアーキテクチャの一例のブロック図である。正規化されたビデオチューブ1905が行動認識分類器に入力される。
【0118】
ビデオチューブの各手部分が別々の手特徴抽出器1910(車両で検出されたK個の手の各々に1つの抽出器など)に供給される。キー特徴記憶機構の編成を利用してROIの時間的情報を追跡することによって、ビデオチューブ内の情報への時間的注意を得ることができる。手特徴抽出器および時間的注意はパイプラインを形成する。パイプラインは手部分に関してスケーラブルである。次いで、すべての手部分を連結し、深層学習ベースの分類器1915に供給して行動を特定することができる。深層学習技術の例には、リカレントニューラルネットワーク(RNN)および長/短期記憶(LSTM)が含まれる。RNNでは、手およびオブジェクトの機械学習されたキー特徴が手の動き情報と連結される。この連結された情報は行動を特定するためにLSTMに順次に入力される。LSTMに予めオブジェクトまたは手の動きのカテゴリを入力することが必要な場合もある。
【0119】
オブジェクトのヒートマップを使用して関連性の高い行動を事前に選択することができ、手画像部分およびモーションフロー情報が、行動タイプをさらに確認および認識し、行動に対応する乗員を特定するために使用される。最終出力の特定の行動認識ネットワークは、運転者の独立した行動1920、1人または複数の同乗者の独立した行動1925、および運転者と同乗者との間の相互作用行動1930についての異なるカテゴリである。
【0120】
図20は、テンソルビデオチューブに基づくものである特定の行動認識ネットワークアーキテクチャの別の例のブロック図である。行動認識分類器は、ビデオチューブに基づく特定のネットワークアーキテクチャである。テンソルビデオチューブ2005の各AAA部分が別々の注意機構に、行方向2010、列方向2012(斜めを含む)、または全体として供給される。次いで対応するAAAが連結され、分類器2015に供給される。分類器は、深層学習または他の機械学習アプローチに基づくものとすることができる。最終出力は運転者の独立した行動2020、1人または複数の同乗者の独立した行動2025、および運転者と同乗者との間の相互作用行動2030についての異なるカテゴリ。
【0121】
テンソルビデオチューブの整理された性質により、行動(1人の行動および複数人の行動)を検出するロバスト、革新的かつ容易な方法が可能になる。テンソルビデオチューブ内の各行が人を識別するので、本開示では各人および各人によって行われた行動を追跡することがより容易である。キー特徴が学習された特徴を含まない場合には、必要に応じてそのような特徴を抽出するために深層学習ベースの従来のニューラルネットが適用される。キー特徴(オブジェクトヒートマップ、手のパッチ層およびモーションフローなど)は、関連性の高い行動を指示し、行動タイプおよび対応する乗員についてのより多くの情報を提供する。
【0122】
テンソルビデオチューブに基づく行動認識を、2つの異なる方法、行方向の注意と列方向の注意とによってそれぞれ得ることができる。テンソルビデオチューブの各行を分類器に供給することにより、分類器によって個々の行動(運転者の行動や同乗者の行動など)を認識することができる。行動認識分類コンポーネントは、人の識別に従ってスケーラブルテンソルビデオチューブ内のAAAの行方向の構成を選択し、選択されたAAAの行方向の構成を機械深層学習に入力として適用して人の行動を特定する。
【0123】
あるいは、テンソルビデオチューブの列を供給することにより、分類器が異なる人の間の相互作用行動を認識することが可能になる。各AAAのレジストリが列方向のAAAをアクティブ化するために使用される。例えば、同じオブジェクトの下で登録された2つの手が相互作用行動を認識するために抽出することになる。行動認識分類コンポーネントは、複数の人の識別に従ってスケーラブルテンソルビデオチューブ内のAAAの列方向の構成を選択し、選択されたAAAの列方向の構成を、機械深層学習に入力として適用して複数の人の間の相互作用を特定する。
【0124】
テンソルビデオチューブに基づく行動認識により、複数のカテゴリの個々の行動を認識することが可能になる。また、運転者から同乗者への行動を区別することもでき、これは、同乗者によって許容される行動が運転者には危険な場合があるので、安全に関して言えばきわめて重要である。単に列方向にテンソルビデオチューブを見ることにより、行動認識システムはAAAを再利用して相互作用行動を認識することができる。同様に、複数の人のグループの複数の相互作用(例えば、運転者が前の座席に座っている同乗者から水筒を受け取る、後部座席の2人の同乗者が握手しているなど)を、テンソルビデオチューブ内の複数の列方向のAAA構成を選択し、行動認識分類器をテンソルビデオチューブの選択された部分に対してのみ適用することによって認識することができる。
【0125】
複数人の行動は一般に機械認識では難しい。従来の方法は、人間の間の複数の行動を別々に扱う傾向にある。けれども、人は複数の行動を同時に、並行して、または相互に行う場合がある。起こり得るすべての行動を特定することが望ましいので、システムがデータを解析するのを容易にする方法でデータを編成することが不可欠である。本発明のシステムおよび方法は、複数の行動が同時に行われ得ることを考慮に入れようと試みる。テンソルビデオチューブは、テンソルビデオチューブの多次元性により、システムが異なる行動を並行でかつ結合された方法において区別することを可能にする。行動認識分類コンポーネントは、複数の人のグループの識別に従ってスケーラブルテンソルビデオチューブ内の複数のAAAの列方向の構成を選択し、選択された複数のAAAの列方向の構成を、機械深層学習に入力として適用して複数の人のグループ間の複数の相互作用を特定し得る。
【0126】
本明細書で前述したように、テンソルビデオチューブは、手の画素情報、手のモーションフロー情報、オブジェクトヒートマップ情報などの情報を含む。多くのオブジェクトおよび手は各ビデオチューブの数行でオーバーラップし得るので、分類器は、(異なる個人の)いくつかの手が同じオブジェクトと相互作用しているか、または手が互いに相互作用している可能性があることを検出することができる。そうしたすべての情報をテンソルビデオチューブにおいて要約することができ、深層学習アルゴリズムがこの関係およびパターンを学習しやすくなる。これらの属性および特徴により、テンソルビデオチューブが、1人の人の行動のみならず、複数人の行動認識についても使いやすく効率的な行動記述子になる。
【0127】
行動認識の既存の方法はフレーム全体を使用して人間の行動を認識する。既存の方法は、認識に際して多くのノイズを伴う、背景クラッタ無関係な身体部分を含む画面全体を見る。また、既存の方法には、手ごとの行動の手がかりがない。人が2つの行動を同時に行っているとき、既存の方法はそれぞれの手の行動を理解するほど洗練されていない場合がある。運転者が一方の手でナビゲーションパネルを操作しており、同時に他方の手でハンドルを操作している場合、既存の方法は混乱する可能性があるが、本発明の方法は、手ごとの行動を認識して、人の行動全体を理解する。
【0128】
その他の手の動きの実施形態
本明細書で前述したように、手のジェスチャおよび手のモーションフローは、車両内の運転者および同乗者の行動を理解するのに役立つ。ビデオチューブが生成されるとき、ビデオチューブは、ビデオストリームの画像フレームの1つまたは複数のウィンドウ表示部分からの画像のシーケンスを含む。ビデオチューブの画像のシーケンスを使用して、行動を特定するために処理できる動きのシーケンスを決定することができる。
【0129】
いくつかの実施形態では、図11のモーションフローコンポーネント1137は、ビデオチューブ内の手画像を含む画像フレームの画素を特定し、手画像を含む画素の変化を追跡する。フレームシーケンスの画像フレーム間で手を含む画素の変化を追跡することにより、画素レベルで動く手の方向が指示される。追跡をビデオチューブに制限することにより、画素の変化を追跡し、手の動きを決定するのに必要な処理が低減される。この追跡をオプティカルフローと呼ぶことができる。オプティカルフローは、行動を決定するために行動認識ネットワークに供給できる指先および関節点ごとの情報を提供する。
【0130】
いくつかの実施形態では、モーションフローコンポーネント1137は、手の動きを特定するためにビデオチューブの特定された手エリアに対して手のポーズの検出を行う。図21は、手エリアを含む画像フレームの部分の一例の図である。手のポーズの検出は、画像パッチ内の指先および関節点の位置を推定する。画像フレーム間で指先および関節点の変化を追跡することにより、手の動きを決定することができる。指先および関節点の情報を行動認識ネットワークに供給して行動を決定することができる。
【0131】
いくつかの実施形態では、事前に訓練された三次元(3D)手モデルがメモリにロードされる。3Dモデルは、3つの相互に直交する軸の各々における手の物理的局面を表すデータ構造として格納され得る。3Dモデルは、あらゆる皮膚の色、サイズ、および形状に汎用の手モデルであり得る。変形では、3D手モデルは、人の特定のカテゴリまたはただ1人の特定の人について学習された特定の手モデルである。モーションフローコンポーネント1137は、ビデオチューブ画像から手を取り込み、セグメント化し得る。モーションフローコンポーネント1137は、二次元(2D)フレームの手の輪郭およびキーポイントを3Dモデルに合わせることによって、ビデオチューブ画像から3D手表現を生成する。生成された3D手表現の経時的な変化は、手のジェスチャおよび動きに関して他のアプローチよりも多くの情報を含む。このモーションフローは、行動を決定するために行動認識ネットワークに供給できる情報のキー特徴である。
【0132】
その他の行動認識の実施形態
図3の行動認識分類コンポーネント355は、特定された手画像、オブジェクト、ヒートマップおよびモーションフローに関連した機械抽出されたキー特徴情報を使用して、乗員の行動を直接、または間接的に特定する。
【0133】
いくつかの実施形態では、行動認識分類コンポーネント355は、キー特徴情報を、規則ベースの行動認識を使用して直接適用する。規則ベースの行動認識では、コンピュータによって検出された1つまたは複数のオブジェクトと手の動きの組み合わせが、検出された組み合わせと行動を関連付けるために、メモリに格納されたオブジェクトと手の動きの1つまたは複数の組み合わせと比較される。メモリは、異なるオブジェクトと手の動きの組み合わせを格納し得る。オブジェクトと動きとは、異なる行動を指示する明確な規則に従って組み合わされる。例えば、システムが運転者の手に携帯電話を検出し、運転者が電話に触れる手の動きを行っていることを検出した場合。システムは、その行動は、運転者が電話を使用してテキストメッセージを打っていることであると特定する。システムは、メモリに格納された組み合わせによって示され得る事前定義された規則を使用して機械識別を行う。
【0134】
いくつかの実施形態では、行動認識分類コンポーネント355は、ビデオチューブについて取得された手画像、オブジェクト、ヒートマップおよびモーションフローの情報を機械学習技術に適用して行動を特定する。機械学習技術の例には、隠れマルコフモデル(HMM)やランダムフォレスト(RF)が含まれる。HMM機械学習では、行動を特定するために、手画像、オブジェクト、および手の動きがマルコフプロセスに入力される。ランダムフォレスト(RF)機械学習では、手画像、オブジェクト、および手の動きが訓練プロセス中に構築された複数の決定木に適用され、RFは行動を特定するために個別の決定木のクラスのモードを出力する。行動認識分類コンポーネント355は、ビデオチューブを使用して検出された手の動きのシーケンスに関連した情報を機械学習技術への入力として適用する。機械学習技術によって1つまたは複数の指定された行動の中から行動が選択される。
【0135】
いくつかの実施形態では、行動認識分類コンポーネント355は、手画像、オブジェクト、および手の動きの情報を深層学習技術に適用して、行動を特定する。深層学習技術の例には、リカレントニューラルネットワーク(RNN)および長/短期記憶(LSTM)が含まれる。RNNでは、オブジェクトの機械学習された特徴が、オプティカルフローなどの手の動き情報と連結される。この連結された情報は行動を特定するためにLSTMに順次に入力される。LSTMに予めオブジェクトまたは手の動きのカテゴリを入力することが必要な場合もある。
【0136】
いくつかの実施形態では、連結されたビデオチューブが生成され、ニューラルネットワークが手のビデオチューブごとに使用されて手ごとの行動が特定される。スケーラブルテンソルビデオチューブの作成はスキップされ、手ごとの各ビデオチューブが処理のためにニューラルネットワークに直接供給され得る。行動認識システムは、特定された手ごとのニューラルネットワークを含んでいてもよく、これらのニューラルネットワークは、車両処理部で並行して実行されるプロセスであり得る(例えば、各ニューラルネットワークは別個のプログラムとして動作することができる)。一例として、ニューラルネットワークは、システムが、手が何を行っているかを判断し、この情報を使用して手に対応する現在の行動を分類することを可能にするLSTMアーキテクチャを使用し得る。例えば、行動認識システムは、現在の画像ストリーム内の反復する動きに基づいて、「手を振る」というジェスチャが動いている手と関連付けられることを学習することができる。
【0137】
システムがビデオチューブを使用して行動エリアに焦点を合わせずに学習しているときには、システムが画素変化を特定の行動と関連付けるために多数の訓練ビデオサンプルが必要になり得る。ビデオフレーム全体に基づく機械学習では、システムが、行動に関連しないデータ(背景の一部であるオブジェクトおよび他の画素など)を含むすべてのデータおよび画素を解析する必要があるので、処理速度および訓練が問題となり得る。また、利用可能なメモリの量の限界およびハードウェアの速度の限界もある。より強力なハードウェアはシステム学習能力を高めることができるが、能力が高いとシステムのコストおよび電力消費も増加する。非常に深いニューラルネットワーク技術は行動と関連付けられた画素パターンを学習することができるが、これらのネットワークは、非常に多数の訓練サンプル、システムにおけるメモリ使用量の増加、および微調整されるべき追加のハイパーパラメータも必要とする。
【0138】
機械学習のアプローチに関係なく、ビデオチューブを使用した機械学習および行動検出は、所与のビデオストリームの画像フレーム全体を使用する機械学習および行動検出よりも効率的、便利、かつ正確である。ビデオチューブを使用すれば、必要な処理時間および行動認識に必要なハードウェア能力を低減することができる。
【0139】
実施形態は手画像を使用した車両車室内の人間の行動の認識に関して説明されているが、記載の実施形態は、ビデオ監視(物理的なセキュリティ、乳児の見守り、高齢者介護を含む)、家畜の監視、生物および環境の監視などといった、他のビデオベースの行動認識タスクに使用することもできる。監視では、処理の焦点を、手のエリアに合わせるのではなく、人間の顔や人間の画像全体に合わせることができる。人間の画像を使用して人間の動きを検出することができ、画像および決定された動きを行動認識コンポーネントへの入力として使用することができる。家畜の監視では、処理の焦点を動物の画像に合わせることができる。
【0140】
ビデオチューブを、行動認識システムが行動(車両乗員の行動など)の検出および特定に役立つ画像の部分のみに焦点を合わせることを可能にする元の画像ストリームの圧縮バージョンとみなすことができる。本明細書に記載される実施形態は、画像ストリームのこれらのセグメント化または圧縮バージョンを1つまたは複数の行動認識プロセスに供給する。これにより、効率が高まり、電力商品が削減される。これは、実施形態を、汎用コンピュータ、スマートフォン、フィールドプログラマブルゲートアレイ、および様々な他の組込み製品などの、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせとして実施することができることを意味する。さらに、実施形態は、関心対象の行動を検出するために処理される画像のエリアが狭められるので、行動特定の正確さを高める。さらに、これらの概念を車両認識から、ロボット工学(家庭用ロボット、医療用ロボットなど)、軍事用途、および監視セキュリティ用途を含む、他の技術分野に拡大することもできる。
【0141】
図22は、例示的な実施形態による方法を実行するための回路を示すブロック図である。様々な実施形態においてすべての構成要素が使用されなくてもよい。コンピュータ2200の形の1つの例示的なコンピューティングデバイスは、1つまたは複数の処理部2202(1つまたは複数のビデオプロセッサなど)と、メモリ2203と、リムーバブル記憶2210と、ノンリムーバブル記憶2212とを含み得る。この回路は、グローバルROI検出コンポーネントと、動的AAA検出コンポーネントと、キー特徴生成コンポーネントと、空間的正規化コンポーネントと、キー特徴再配置コンポーネントと、時間的正規化コンポーネントと、行動認識分類コンポーネントとを含むことができる。
【0142】
例示的なコンピューティングデバイスがコンピュータ2200として図示および説明されているが、コンピューティングデバイスは、異なる実施形態では異なる形態であり得る。例えば、コンピューティングデバイスは、代わりに、スマートフォン、タブレット、スマートウォッチ、または図22に関して図示および説明されるのと同じかもしくは同様の要素を含む他のコンピューティングデバイスであってもよい。スマートフォン、タブレット、スマートウォッチなどのデバイスは一般に、モバイルデバイスまたはユーザ機器と総称される。さらに、様々なデータ記憶要素がコンピュータ2200の一部として図示されているが、記憶は、これに加えてまたは代替として、インターネットやサーバベースの記憶など、ネットワークを介してアクセス可能なクラウドベースの記憶を含んでいてもよい。
【0143】
メモリ2203を、本明細書に記載されるような画像データのフレームなどのデータ構造を格納するように構成することができる。メモリ2203は、揮発性メモリ2214および不揮発性メモリ2208を含み得る。コンピュータ2200は、揮発性メモリ2214および不揮発性メモリ2208、リムーバブル記憶2210およびノンリムーバブル記憶2212などの、様々なコンピュータ可読媒体を含み得るか、またはこれらを含むコンピューティング環境にアクセスし得る。コンピュータ記憶は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去書込み可能読取り専用メモリ(EPROM)および電気的消去書込み可能読取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくは他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶媒体もしくは別の磁気記憶デバイス、または処理部2202を本明細書に記載されるネットワークブリッジプロトコルを実行するように構成する命令を含むコンピュータ可読命令を格納することができる任意の他の媒体を含む。
【0144】
コンピュータ2200は、入力2206、出力2204、および通信接続2216を含むコンピューティング環境を含み得るか、またはこれにアクセスし得る。出力2204は、入力装置としても機能し得る、タッチスクリーンなどの表示装置を含み得る。入力2206は、タッチスクリーン、タッチパッド、マウス、キーボード、カメラ、1つまたは複数のデバイス固有のボタン、コンピュータ2200内に統合されるかまたは有線もしくは無線データ接続を介してコンピュータ2200に結合された1つまたは複数のセンサ、および他の入力装置を含み得る。コンピュータは、通信接続を使用してデータベースサーバなどの1つまたは複数のリモートコンピュータに接続するネットワーク環境で動作し得る。リモートコンピュータは、パーソナルコンピュータ(PC)、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードなどを含み得る。通信接続は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、セルラ、WiFi、ブルートゥース(登録商標)、または他のネットワークを含み得る。
【0145】
コンピュータ可読媒体に格納されたコンピュータ可読命令は、コンピュータ2200の処理部2202によって実行可能である。ハードドライブ、CD−ROM、およびRAMが、記憶装置などの非一時歴なコンピュータ可読媒体を含む物品の一部の例である。コンピュータ可読媒体および記憶装置という用語は、搬送波が一時的すぎるとみなされる限りにおいて、搬送波を含まない。記憶は、2220に示されるストレージエリアネットワーク(SAN)などのネットワーク記憶も含むことができる。
【0146】
以上ではいくつかの実施形態が詳細に説明されているが、他の改変形態も可能である。例えば、図に示されている論理フローは、所望の結果を達成するために、図示されている特定の順序、すなわち順番を必要としない。他のステップが提供されてもよく、または記載のフローからステップが除去されてもよく、記載のシステムに他の構成要素が追加されてもよく、または記載のシステムから除去されてもよい。添付の特許請求の範囲内には他の実施形態があり得る。
【符号の説明】
【0147】
103 撮像装置
105 撮像装置/イメージセンサアレイ
107 手エリア
300 システム
301 車両
305 ビデオソース
310 行動認識装置
315 ポート
320 メモリ
325 グローバル関心領域(ROI)検出コンポーネント
330 動的行動アクティブエリア(AAA)検出コンポーネント
335 キー特徴生成コンポーネント
340 空間的正規化コンポーネント
345 キー特徴再配置コンポーネント
350 時間的正規化コンポーネント
355 行動認識分類コンポーネント
400 方法
805 大まかな手エリア
810 深層畳み込みニューラルネットワーク
815 手およびオブジェクト
930 動的ウィンドウ表示コンポーネント
932 制御可能なスイッチ
1139 ヒートマップコンポーネント
1135 キー特徴生成コンポーネント
1130 動的AAA生成コンポーネント
1137 モーションフローコンポーネント
1145 キー特徴再配置コンポーネント
1405 手1の画像およびモーションフロー
1410 手2の画像およびモーションフロー
1415 ヒートマップストリーム
1505 手画像フレーム
1510 モーションフロー情報
1515 ヒートマップ情報
1905 正規化されたビデオチューブ
1910 別々の手特徴抽出器
1915 深層学習ベースの分類器
1920 運転者の独立した行動
1925 1人または複数の同乗者の独立した行動
1930 運転者と同乗者との間の相互作用行動
2005 テンソルビデオチューブ
2010 行方向の注意
2012 列方向の注意
2015 分類器
2020 運転者の独立した行動
2025 1人または複数の同乗者の独立した行動
2030 運転者と同乗者との間の相互作用行動
2200 コンピュータ
2202 処理部
2203 メモリ
2204 出力
2206 入力
2208 不揮発性メモリ
2210 リムーバブル記憶
2212 ノンリムーバブル記憶
2214 揮発性メモリ
2216 通信接続
2218 プログラム
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図7C】
【図7D】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【国際調査報告】