(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】2019522291
(43)【公表日】20190808
(54)【発明の名称】プログラマブル二次元画像プロセッサ上の畳み込みニューラルネットワーク
(51)【国際特許分類】
   G06F 17/10 20060101AFI20190712BHJP
   G06T 1/20 20060101ALI20190712BHJP
   G06N 3/063 20060101ALI20190712BHJP
   G06F 15/80 20060101ALI20190712BHJP
【FI】
   !G06F17/10 A
   !G06T1/20 B
   !G06N3/063
   !G06F15/80
【審査請求】有
【予備審査請求】未請求
【全頁数】46
(21)【出願番号】2018567935
(86)(22)【出願日】20170607
(85)【翻訳文提出日】20190220
(86)【国際出願番号】US2017036441
(87)【国際公開番号】WO2018005030
(87)【国際公開日】20180104
(31)【優先権主張番号】15/201,204
(32)【優先日】20160701
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【住所又は居所】アメリカ合衆国 カリフォルニア州 94043 マウンテン ビュー アンフィシアター パークウェイ 1600
(74)【代理人】
【識別番号】110001195
【氏名又は名称】特許業務法人深見特許事務所
(72)【発明者】
【氏名】シャチャム,オフェル
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
(72)【発明者】
【氏名】パターソン,デイビッド
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
(72)【発明者】
【氏名】マーク,ウィリアム・アール
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
(72)【発明者】
【氏名】メイクスナー,アルバート
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
(72)【発明者】
【氏名】フィンチェルスタイン,ダニエル・フレデリック
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
(72)【発明者】
【氏名】レッドグレイブ,ジェイソン・ルパート
【住所又は居所】アメリカ合衆国、94043 カリフォルニア州、マウンテン・ビュー、アンフィシアター・パークウェイ、1600
【テーマコード(参考)】
5B056
5B057
【Fターム(参考)】
5B056BB26
5B057CE06
5B057CH04
5B057CH08
5B057CH11
5B057CH14
(57)【要約】
方法が記載されており、上記方法は、実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するステップを含む。上記二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を上記実行レーンに提供する。上記畳み込みニューラルネットワークを実行するステップは、画像データの三次元ブロックの画像データの面を上記二次元シフトレジスタにロードするステップを含む。上記畳み込みニューラルネットワークを実行するステップは、係数値のアレイを用いて上記画像データの面の二次元畳み込みを実行するステップも含み、上記二次元畳み込みを実行するステップは、上記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、上記実行レーン内で、上記部分積と、上記画像データ内の様々なステンシルのために上記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、上記二次元シフトレジスタアレイ内で内容をシフトすることによって上記実行レーン内で上記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる。
【特許請求の範囲】
【請求項1】
方法であって、
実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するステップを備え、前記二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を前記実行レーンに提供し、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップとを備え、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、方法。
【請求項2】
前記画像データの面および係数の次のアレイで上記のa)およびb)を繰り返すステップをさらに備え、前記係数値のアレイは、前記畳み込みニューラルネットワーク層のための第1の係数セットからの面であり、前記係数値の次のアレイは、前記畳み込みニューラルネットワーク層のための第2の係数セットからの面である、請求項1に記載の方法。
【請求項3】
プログラムコードを格納した機械可読記憶媒体であって、前記プログラムコードは、実行レーンのアレイとローカルなそれぞれのレジスタ空間を前記実行レーンに提供する二次元シフトレジスタとを有する画像プロセッサによって処理されると、方法を実行させ、前記方法は、
畳み込みニューラルネットワークを実行するステップを備え、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップと、を実行することによって行われ、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、機械可読記憶媒体。
【請求項4】
前記方法は、前記画像データの面および係数の次のアレイで上記のa)およびb)を繰り返すステップをさらに備え、前記係数値のアレイは、前記畳み込みニューラルネットワーク層のための第1の係数セットからの面であり、前記係数値の次のアレイは、前記畳み込みニューラルネットワーク層のための第2の係数セットからの面である、請求項3に記載の機械可読記憶媒体。
【請求項5】
前記は、同じ係数セットから生成された中間面を前記実行レーンにローカルに蓄積するステップをさらに備える、請求項4に記載の機械可読記憶媒体。
【請求項6】
前記画像データは、前記画像データと1)前記第1の係数セットからの前記面との間で実行される二次元畳み込みと、前記画像データと2)前記第2の係数セットからの前記面との間で実行される二次元畳み込みとの間では、前記実行レーンにローカルに維持される、請求項3または4に記載の機械可読記憶媒体。
【請求項7】
前記同時に乗算するステップは、前記二次元シフトレジスタ内の画像データに対して同じ係数値を同時に乗算するステップをさらに備える、請求項3〜6のいずれか1項に記載の機械可読記憶媒体。
【請求項8】
前記値の整列を行うステップは、前記画像データに次の係数値を乗算する前に前記二次元シフトレジスタ内の画像データをシフトするステップを備える、請求項3〜7のいずれか1項に記載の機械可読記憶媒体。
【請求項9】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、前記畳み込みニューラルネットワーク層の異なる係数セットを有する異なるステンシルプロセッサ上で同じ画像データを実行するように構成される、請求項3〜8のいずれか1項に記載の機械可読記憶媒体。
【請求項10】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、異なるステンシルプロセッサ上の異なる画像データを用いて前記異なるステンシルプロセッサ上で前記畳み込みニューラルネットワークの同じ係数セットを実行するように構成される、請求項3〜8のいずれか1項に記載の機械可読記憶媒体。
【請求項11】
前記異なる画像データは、画像データの三次元ブロックの異なるブロックの複数の面を備える、請求項10に記載の機械可読記憶媒体。
【請求項12】
前記画像プロセッサは、前記畳み込みニューラルネットワーク層からの出力を、前記画像プロセッサによって算出される次の畳み込みニューラルネットワーク層のための入力として使用するように構成される、請求項3〜11のいずれか1項に記載の機械可読記憶媒体。
【請求項13】
前記画像プロセッサは、前記画像データが前記畳み込みニューラルネットワーク層の処理と第2の畳み込みニューラルネットワーク層の処理との間では前記実行レーンにローカルのままである状態で、前記畳み込みニューラルネットワーク層および前記第2の畳み込みニューラルネットワーク層を多重化するように構成される、請求項3〜11のいずれか1項に記載の機械可読媒体。
【請求項14】
装置であって、
i)実行レーンのアレイと二次元シフトレジスタとを備える画像プロセッサを備え、前記二次元シフトレジスタは、それぞれのローカルなレジスタ空間を前記実行レーンに提供し、前記装置はさらに、
ii)格納されたプログラムコードを含む機械可読記憶媒体を備え、前記プログラムコードは、前記実行レーンのアレイによって実行されると、方法を実行させ、前記方法は、
畳み込みニューラルネットワークを実行するステップを備え、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップと、を実行することによって行われ、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、装置。
【請求項15】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、前記畳み込みニューラルネットワーク層の異なる係数セットを有する異なるステンシルプロセッサ上で同じ画像データを実行するように構成される、請求項14に記載の装置。
【請求項16】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、異なるステンシルプロセッサ上の異なる画像データを用いて前記異なるステンシルプロセッサ上で前記畳み込みニューラルネットワークの同じ係数セットを実行するように構成される、請求項14に記載の装置。
【請求項17】
前記異なる画像データは、画像データの三次元ブロックの異なるブロックの複数の面を備える、請求項16に記載の装置。
【請求項18】
前記画像プロセッサは、前記畳み込みニューラルネットワーク層からの出力を、前記画像プロセッサによって算出される次の畳み込みニューラルネットワーク層のための入力として使用するように構成される、請求項14〜17のいずれか1項に記載の装置。
【請求項19】
前記画像プロセッサは、前記画像データが前記畳み込みニューラルネットワーク層の処理と第2の畳み込みニューラルネットワーク層の処理との間では前記実行レーンにローカルのままである状態で、前記畳み込みニューラルネットワーク層および前記第2の畳み込みニューラルネットワーク層を多重化するように構成される、請求項14〜17のいずれか1項に記載の装置。
【請求項20】
前記画像プロセッサおよび機械可読記憶媒体は、コンピューティングシステムの一部である、請求項14〜19のいずれか1項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
分野
本明細書は、一般に、画像処理に関し、特に、二次元画像プロセッサ上の畳み込みニューラルネットワークに関する。
【背景技術】
【0002】
背景
画像処理は、典型的には、アレイに編成されたピクセル値の処理を含む。ここで、空間的に編成された二次元アレイは、画像の二次元的性質を捕捉する(追加の次元は、時間(例えば二次元画像のシーケンス)およびデータタイプ(例えば色)を含み得る)。典型的なケースでは、アレイ化されたピクセル値は、静止画像または動きの画像を捕捉するためにフレームのシーケンスを生成したカメラによって提供される。伝統的な画像プロセッサは、典型的には、2つの極端な側面のいずれかに分類される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
第1の極端な側面は、汎用プロセッサまたは汎用状プロセッサ(例えばベクトル命令拡張を備えた汎用プロセッサ)上で実行されるソフトウェアプログラムとして画像処理タスクを実行する。第1の極端な側面は、一般的に非常に汎用性の高いアプリケーションソフトウェア開発プラットフォームを提供するが、関連するオーバーヘッド(例えば、命令フェッチおよびデコード、オンチップおよびオフチップデータの処理、投機的実行)と組み合わされたより精細な粒子のデータ構造の使用は、究極的には、プログラムコードの実行中に、データの単位あたり、より多くのエネルギーが消費される結果となる。
【0004】
第2の逆の極端な側面は、固定機能のハードワイヤード回路系をはるかに大きなデータブロックに適用する。カスタム設計された回路に直接適用される、(粒度の細かいブロックとは対照的な)より大きなデータブロックの使用は、データ単位あたりの消費電力を大幅に削減する。しかしながら、カスタム設計された固定機能回路系の使用は、一般に、プロセッサが実行することができるタスクのセットが限られる結果となる。このように、(第1の極端な側面に関連する)幅広く汎用性の高いプログラミング環境は第2の極端な側面においては欠けている。
【0005】
高度に汎用性の高いアプリケーションソフトウェア開発の機会と、データ単位あたりの電力効率の向上とを両立させた技術プラットフォームは、依然として望ましいが、欠けている解決策である。
【課題を解決するための手段】
【0006】
概要
方法が記載されており、上記方法は、実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するステップを含む。上記二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を上記実行レーンに提供する。上記畳み込みニューラルネットワークを実行するステップは、画像データの三次元ブロックの画像データの面を上記二次元シフトレジスタにロードするステップを含む。上記畳み込みニューラルネットワークを実行するステップは、係数値のアレイを用いて上記画像データの面の二次元畳み込みを実行するステップも含み、上記二次元畳み込みを実行するステップは、上記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、上記実行レーン内で、上記部分積と、上記画像データ内の様々なステンシルのために上記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、上記二次元シフトレジスタアレイ内で内容をシフトすることによって上記実行レーン内で上記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる。
【0007】
また、装置が記載されており、上記装置は、実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するための手段を有する。上記二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を上記実行レーンに提供する。上記畳み込みニューラルネットワークを実行するための手段は、画像データの三次元ブロックの画像データの面を上記二次元シフトレジスタにロードするための手段を含む。上記畳み込みニューラルネットワークを実行するための手段は、係数値のアレイを用いて上記画像データの面の二次元畳み込みを実行するための手段も含み、上記二次元畳み込みを実行するための手段は、上記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成することと、上記実行レーン内で、上記部分積と、上記画像データ内の様々なステンシルのために上記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計することと、上記二次元シフトレジスタアレイ内で内容をシフトすることによって上記実行レーン内で上記二次元畳み込みのための値の整列を行うことと、をシーケンシャルに実行することによって行われる。
【0008】
図面のリスト
以下の説明および添付の図面は、様々な実施形態を例示するために使用される。
【図面の簡単な説明】
【0009】
【図1】画像プロセッサハードウェアアーキテクチャの実施形態を示す。
【図2a】画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。
【図2b】画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。
【図2c】画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。
【図2d】画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。
【図2e】画像データのライングループへの解析、ライングループのシートへの解析、および重なり合うステンシルでシート上で実行される操作を示す。
【図3a】ステンシルプロセッサの実施形態を示す。
【図3b】命令フォーマットの実施形態を示す図である。
【図4】ステンシルプロセッサ内のデータ計算ユニットの一実施形態を示す図である。
【図5a】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5b】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5c】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5d】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5e】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5f】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5g】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5h】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5i】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5j】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図5k】二次元シフトアレイおよび実行レーンアレイを使用して、重なり合うステンシルで近隣の出力ピクセル値の対を決定する例を示す。
【図6】統合された実行レーンアレイおよび二次元シフトアレイのための単位セルの実施形態を示す図である。
【図7】3D畳み込みを示す。
【図8】CNN層を示す。
【図9a】画像係数面を用いた3D畳み込みを示す。
【図9b】対応する係数セットを用いた画像データに相当する2つの3×3ステンシルの2D畳み込みを示す。
【図10a】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10b】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10c】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10d】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10e】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10f】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10g】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10h】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10i】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図10j】画像面と係数面を有する係数セットとを用いたCNN層の実行を示す。
【図11a】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11b】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11c】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11d】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11e】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11f】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11g】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11h】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11i】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図11j】二次元シフトレジスタを有する画像プロセッサによる2つの3×3ステンシルのための二次元畳み込みを示す。
【図12】第1画像プロセッサCNN層構成を示す。
【図13】第2画像プロセッサCNN層構成を示す。
【図14】第3画像プロセッサCNN層構成を示す。
【図15】画像プロセッサ上での複数のCNN層の多重化に関する。
【図16】画像プロセッサ上でCNN層を実行する方法を示す。
【図17】コンピューティングシステムを示す。
【発明を実施するための形態】
【0010】
詳細な記載
a.画像プロセッサハードウェアアーキテクチャおよび動作
図1は、ハードウェアで実現される画像プロセッサのためのアーキテクチャ100の実施形態を示す。画像プロセッサは、例えば、シミュレートされた環境内で仮想プロセッサ用に書かれたプログラムコードを、ハードウェアプロセッサによって実際に実行されるプログラムコードに変換するコンパイラによって対象とされてもよい。図1に示すように、アーキテクチャ100は、複数のラインバッファユニット101_1〜101_M(以下、「ラインバッファ」、「ラインバッファユニット」など)を含み、それらは、複数のステンシルプロセッサユニット102_1〜102_N(以下、「ステンシルプロセッサ」、「ステンシルプロセッサユニット」など)および対応するシート生成部ユニット103_1〜103_N(以下、「シート生成部」、「シート生成部ユニット」など)に、ネットワーク104(例えば、ネットワークオンチップ(NOC)(オンチップスイッチネットワーク、オンチップリングネットワークまたは他の種類のネットワークを含む))を介して相互接続される。一実施形態では、どのラインバッファユニットが、ネットワーク104を介してどのシート生成部および対応するステンシルプロセッサに接続してもよい。
【0011】
一実施形態では、プログラムコードはコンパイルされ、対応するステンシルプロセッサ102にロードされて、ソフトウェア開発者によって以前に定義された画像処理動作を実行する(プログラムコードは、例えば、設計および実装に応じて、ステンシルプロセッサの関連のシート生成部103にもロードされてもよい)。少なくともいくつかの例では、画像処理パイプラインを、第1のパイプラインステージ用の第1のカーネルプログラムを第1のステンシルプロセッサ102_1にロードし、第2のパイプラインステージ用の第2のカーネルプログラムを第2のステンシルプロセッサ102_2にロードするなどして、実現することができ、第1のカーネルはパイプラインの第1ステージの機能を実行し、第2のカーネルはパイプラインの第2ステージの機能を実行し、追加の制御フロー方法がインストールされて、出力画像データをパイプラインの1つのステージから次のステージに渡す。
【0012】
他の構成では、画像プロセッサは、同じカーネルプログラムコードを動作させる2つ以上のステンシルプロセッサ102_1,102_2を有する並列マシンとして実現することができる。例えば、画像データの高密度かつ高データレートのストリームが、各々が同じ機能を実行する複数のステンシルプロセッサにわたってフレームを広げることによって処理されてもよい。
【0013】
さらに他の構成では、カーネルの本質的に任意の有向非巡回グラフ(DAG)のハードウェアプロセッサへのロードを、それぞれのステンシルプロセッサをそれら自身のプログラムコードのカーネルとともに構成し、適切な制御フローフックをハードウェアに構成して、出力画像をDAG設計における1つのカーネルから次のカーネルの入力に向けることによって、行なってもよい。
【0014】
一般的なフローとして、画像データのフレームは、マクロI/Oユニット105で受信され、フレーム単位でラインバッファユニット101の1つ以上に渡される。特定のラインバッファユニットは、それの画像データのフレームを、「ライングループ」と呼ばれる画像データのより小さな領域に解析し、次いでライングループをネットワーク104を介して特定のシート生成部に渡す。ある完全な(full)単数のライングループを、例えば、フレームの複数の連続した完全な行または列のデータで構成することができる(簡潔にするために、本明細書では主に連続した行と称する)。シート生成部は、画像データのライングループを「シート」と呼ばれる画像データのより小さな領域にさらに解析し、そのシートを対応するステンシルプロセッサに提示する。
【0015】
単一入力の画像処理パイプラインやDAGフローの場合、一般に、入力フレームは、同じラインバッファユニット101_1に向けられ、それは、画像データをライングループに解析し、ライングループをシート生成部103_1(対応するステンシルプロセッサ102_1はパイプライン/DAGにおいて第1のカーネルのコードを実行している)に向ける。ステンシルプロセッサ102_1による、それが処理するライングループでの動作が終了した後、シート生成部103_1は、出力ライングループを「下流」のラインバッファユニット101_2に送信する(ある使用例では、出力ライングループは、先に入力ライングループを送信したのと同じラインバッファユニット101_1に送り返すことができる)。
【0016】
自身のそれぞれの他のシート生成部およびステンシルプロセッサ(例えば、シート生成部103_2およびステンシルプロセッサ102_2)上で実行されるパイプライン/DAGにおける次のステージ/動作を表す1つ以上の「消費側」カーネルは、下流ラインバッファユニット101_2から、第1のステンシルプロセッサ102_1によって生成された画像データを受信する。このようにして、第1のステンシルプロセッサ上で動作する「作成側」カーネルは、その出力データが、第2のステンシルプロセッサ上で動作する「消費側」カーネルに転送され、消費側カーネルは、パイプラインまたはDAG全体の設計と整合する作成側カーネルの後に次のタスクのセットを実行する。
【0017】
ステンシルプロセッサ102は、画像データの複数の重なり合うステンシル上で同時に動作するように設計されている。複数の重なり合うステンシルおよびステンシルプロセッサの内部ハードウェア処理能力は、シートのサイズを効果的に決定する。ここでは、ステンシルプロセッサ102内で、実行レーンのアレイが一致して動作して、複数の重なり合うステンシルによってカバーされる画像データ表面領域を同時に処理する。
【0018】
以下でより詳細に説明するように、様々な実施形態において、画像データのシートは、ステンシルプロセッサユニット102内において二次元レジスタアレイ構造にロードされる。シートおよび二次元レジスタアレイ構造の使用は、大量のデータを、大量のレジスタ空間に、例えば、処理タスクが実行レーンアレイによってその直後に直接データ上で実行される単一のロード動作として移動することによって、電力消費の改善を効果的に提供すると考えられている。さらに、実行レーンアレイおよび対応するレジスタアレイの使用は、容易にプログラマブル/設定可能な異なるステンシルサイズを提供する。
【0019】
図2a〜図2eは、ラインバッファユニット101の解析アクティビティ、およびシート生成部ユニット103のより微細な粒子の解析アクティビティ、ならびにシート生成部ユニット103に結合されるステンシルプロセッサ102のステンシル処理アクティビティの両方のハイレベルの実施形態を示す。
【0020】
図2aは、画像データ201の入力フレームの一実施形態を示す。図2aはまた、ステンシルプロセッサが動作するように設計された3つの重なり合うステンシル202(各ステンシルは3ピクセル×3ピクセルの寸法を有する)の概要を示す。各ステンシルがそれぞれ出力画像データを生成する出力ピクセルは、ベタ黒で強調表示される。簡潔にするために、3つの重なり合うステンシル202は、垂直方向にのみ重なるように示されている。実際には、ステンシルプロセッサは、垂直方向および水平方向の両方に重なるステンシルを有するように設計されてもよいことを認識することが適切である。
【0021】
図2aに見られるように、ステンシルプロセッサ内の垂直に重なり合うステンシル202のために、フレーム内に単一のステンシルプロセッサが動作することができる画像データの広い帯域が存在する。以下でより詳細に説明するように、一実施形態では、ステンシルプロセッサは、データを、それらの重なり合うステンシル内で、左から右への態様で、画像データにわたって処理する(そして、次のラインのセットに対して、上から下の順序で繰り返す)。このように、ステンシルプロセッサがそれらの動作を前方に進めるにつれて、ベタ黒出力ピクセルブロックの数は、水平方向に右に成長する。上述したように、ラインバッファユニット101は、ステンシルプロセッサが今後の拡張された数のサイクルにわたって動作するのに十分な入来フレームからの入力画像データのライングループを解析することを担う。ライングループの例示的な図示は、陰影領域203として示されている。一実施形態では、ラインバッファユニット101は、ライングループをシート生成部との間で送受信するための異なるダイナミクスを理解することができる。例えば、「完全なグループ」と呼ばれる1つのモードによれば、画像データの完全な全幅のラインが、ラインバッファユニットとシート生成部との間で渡される。「仮想的に高い」と呼ばれる第2のモードによれば、ライングループは最初に全幅行のサブセットと共に渡される。その後、残りの行は、より小さい(全幅未満の)片で順番に渡される。
【0022】
入力画像データのライングループ203がラインバッファユニットによって画定され、シート生成部ユニットに渡されると、シート生成部ユニットはさらに、ライングループを、ステンシルプロセッサのハードウェア制限に、より正確に適合する、より微細なシートに、解析する。より具体的には、以下でさらに詳細に説明するように、一実施形態では、各ステンシルプロセッサは、二次元シフトレジスタアレイからなる。二次元シフトレジスタアレイは、本質的に、画像データを実行レーンのアレイの「真下」にシフトし、シフトのパターンは、各実行レーンをそれ自身のステンシル内においてデータに対して動作させる(すなわち、各実行レーンは、それ自身の情報のステンシル上で処理して、そのステンシルの出力を生成する)。一実施形態では、シートは、二次元シフトレジスタアレイを「満たす」か、さもなければ二次元シフトレジスタアレイにロードされる入力画像データの表面領域である。
【0023】
以下でより詳細に説明するように、様々な実施形態では、実際には、任意のサイクルでシフト可能な二次元レジスタデータの複数の層が存在する。便宜上、本記載の多くは、「二次元シフトレジスタ」などの用語を、シフト可能な二次元レジスタデータの1つ以上のそのような層を有する構造を指すために単純に使用する。
【0024】
したがって、図2bに見られるように、シート生成部は、ライングループ203から最初のシート204を解析し、それをステンシルプロセッサに供給する(ここで、データのシートは、参照番号204によって全体的に識別される5×5陰影領域に対応する)。図2cおよび図2dに示すように、ステンシルプロセッサは、重なるステンシル202をシート上で左から右へ効果的に移動させることによって、入力画像データのシートに対して動作する。図2dのように、シート内のデータから出力値を計算することができるピクセル数(色が濃くなった3×3アレイにおける9個)が使い果たされる(他のピクセル位置は、シート内の情報から決定される出力値を有することができない)。簡単にするために、画像の境界領域は無視されている。
【0025】
図2eにおいて見られるように、シート生成部は次いで、ステンシルプロセッサが動作を継続する次のシート205を提供する。ステンシルが次のシートに対して動作を開始するときのステンシルの初期位置は、(先に図2dに示されている)最初のシート上の消耗点から右への次の進行であることに留意されたい。新たなシート205で、ステンシルプロセッサが最初のシートの処理と同じ態様で新たなシートに対して動作するにつれ、ステンシルは単に右に移動し続ける。
【0026】
出力ピクセル位置を取り囲むステンシルの境界領域のために、第1のシート204のデータと第2のシート205のデータとの間にいくらかの重なりがあることに留意されたい。重なりは、シート生成部が重なり合うデータを2回再送信することによって簡単に処理することができる。別の実現例では、次のシートをステンシルプロセッサに供給するために、シート生成部は、ステンシルプロセッサに新たなデータを送るだけに進んでもよく、ステンシルプロセッサは、前のシートからの重なり合うデータを再利用する。
【0027】
b.ステンシルプロセッサ設計および動作
図3aは、ステンシルプロセッサユニットアーキテクチャ300の実施形態を示す。図3aにおいて見られるように、ステンシルプロセッサは、データ計算ユニット301、スカラープロセッサ302および関連するメモリ303およびI/Oユニット304を含む。データ計算ユニット301は、実行レーンのアレイ305、二次元シフトアレイ構造306、およびアレイの特定の行または列に関連する別個のそれぞれのランダムアクセスメモリ307を含む。
【0028】
I/Oユニット304は、シート生成部から受け取ったデータの「入力」シートをデータ計算ユニット301にロードし、ステンシルプロセッサからのデータの「出力」シートをシート生成部に格納する役割を果たす。一実施形態では、データ計算ユニット301へのシートデータのロードは、受け取ったシートを画像データの行/列に解析し、画像データの行/列を二次元シフトレジスタ構造306または実行レーンアレイの行/列のそれぞれのランダムアクセスメモリ307にロードすることを必要とする(以下でより詳細に説明する)。シートが最初にメモリ307にロードされる場合、実行レーンアレイ305内の個々の実行レーンは、適宜、ランダムアクセスメモリ307からシートデータを二次元シフトレジスタ構造306にロードすることができる(例えば、シートのデータ上での動作のすぐ前のロード命令として)。データのシートのレジスタ構造306へのロード(シート生成部からの直接的であろうとまたはメモリ307からであろうと)が完了すると、実行レーンアレイ305の実行レーンはデータに対して動作し、最終的に、完成したデータをシートとしてシート生成部に、またはランダムアクセスメモリ307に「書き戻す」。実行レーンがランダムアクセスメモリ907に書き戻す場合、I/Oユニット304はランダムアクセスメモリ307からデータをフェッチして出力シートを形成し、出力シートはシート生成部に転送される。
【0029】
スカラープロセッサ302は、スカラーメモリ303からステンシルプロセッサのプログラムコードの命令を読み出し、実行レーンアレイ305の実行レーンに命令を発行するプログラムコントローラ309を含む。一実施形態では、データ計算ユニット301から単一命令複数データ(SIMD)のような動作を実行するために、単一の同じ命令がアレイ305内のすべての実行レーンにブロードキャストされる。一実施形態では、スカラーメモリ303から読み出され、実行レーンアレイ305の実行レーンに発行される命令の命令フォーマットは、命令当たり2つ以上のオペコードを含む非常に長い命令語(VLIW)タイプのフォーマットを含む。さらなる実施形態では、VLIWフォーマットは、(以下に説明するように、一実施形態では2つ以上の従来のALU動作を指定することができる)各実行レーンのALUによって実行される数学的機能を指示するALUオペコードと、(特定の実行レーンまたは実行レーンのセットに対してメモリ操作を指示する)メモリオペコードとの両方を含む。
【0030】
「実行レーン」という用語は、命令を実行することができる1つ以上の実行ユニットのセット(例えば、命令を実行することができる論理回路系)を指す。実行レーンは、しかしながら、様々な実施形態では、単なる実行ユニットを超えた、よりプロセッサに似た機能を含むことができる。例えば、1つ以上の実行ユニットに加えて、実行レーンは、受信された命令をデコードする論理回路系、または、より複数命令複数データ(MIMD)のような設計の場合、命令をフェッチおよびデコードする論理回路系も含むことができる。MIMDのようなアプローチに関しては、ここでは集中プログラム制御アプローチが主に記載されているが、より分散型のアプローチが様々な代替実施形態(例えば、アレイ305の各実行レーン内のプログラムコードおよびプログラムコントローラを含む)において実施されてもよい。
【0031】
実行レーンアレイ305、プログラムコントローラ309および二次元シフトレジスタ構造306の組み合わせは、広範囲のプログラマブルな機能のための幅広く適応可能/設定可能なハードウェアプラットフォームを提供する。例えば、アプリケーションソフトウェア開発者は、個々の実行レーンが多種多様な機能を実行することができ、任意の出力アレイ位置に近接した入力画像データに容易にアクセスすることができれば、寸法(例えばステンシルサイズ)だけでなく幅広い異なる機能能力を有するカーネルをプログラミングすることができる。
【0032】
実行レーンアレイ305によって操作される画像データのためのデータ記憶装置として機能することとは別に、ランダムアクセスメモリ307は、1つ以上のルックアップテーブルを保持することもできる。様々な実施形態では、1つ以上のスカラールックアップテーブルをスカラーメモリ303内でインスタンス化することもできる。
【0033】
スカラールックアップは、同じルックアップテーブルからの同じインデックスからの同じデータ値を実行レーンアレイ305内の各実行レーンに渡すことを含む。様々な実施形態では、上述のVLIW命令フォーマットは、スカラープロセッサによって実行されるルックアップ動作をスカラールックアップテーブルに向けるスカラーオペコードを含むようにも拡張される。オペコードとともに使用するために指定されたインデックスは、即値オペランドでもよいし、他のデータ記憶位置からフェッチされてもよい。いずれにせよ、一実施形態では、スカラーメモリ内のスカラールックアップテーブルからのルックアップは、基本的に同じクロックサイクル中に実行レーンアレイ305内のすべての実行レーンに同じデータ値をブロードキャストすることを含む。ルックアップテーブルの使用および動作に関する追加の詳細は、以下でさらに説明する。
【0034】
図3bは、上述のVLIW命令ワードの実施形態を要約したものである。図3bにおいて見られるように、VLIW命令ワードフォーマットは、3つの別個の命令、すなわち、1)スカラープロセッサによって実行されるスカラー命令351、2)実行レーンアレイ内でそれぞれのALUによってSIMD方式でブロードキャストされ実行されるALU命令352、および3)部分的SIMD方式でブロードキャストされ実行されるメモリ命令353に対するフィールドを含む(例えば、実行レーンアレイ内において同じ行に沿った実行レーンが同じランダムアクセスメモリを共有する場合、異なる行の各々からの1つの実行レーンが実際に命令を実行する(メモリ命令353のフォーマットは、各行からのどの実行レーンが命令を実行するかを識別するオペランドを含むことができる)。
【0035】
1つ以上の即値オペランドに対するフィールド354も含まれる。命令351,352,353のどれが、どの即値オペランド情報を用いるかは命令フォーマットで識別されてもよい。命令351,352,353の各々は、また、それ自身のそれぞれの入力オペランドおよび結果情報(例えば、ALU演算用のローカルレジスタならびにメモリアクセス命令用のローカルレジスタおよびメモリアドレス)を含む。一実施形態では、スカラー命令351は、実行レーンアレイ内の実行レーンが他の2つの命令352,353のいずれかを実行する前にスカラープロセッサによって実行される。すなわち、VLIWワードの実行は、スカラー命令351が実行される第1のサイクルと、続いて他の命令352,353が実行されてもよい第2のサイクルとを含む。(様々な実施形態では、命令352,353は並列して実行されてもよい)。
【0036】
一実施形態では、スカラープロセッサ302によって実行されるスカラー命令は、シートをデータ計算ユニット301のメモリもしくは2Dシフトレジスタ306からロードまたはそれに格納するようシート生成部103に発行されるコマンドを含む。ここで、シート生成部の動作は、ラインバッファユニット101の動作またはスカラープロセッサ302によって発行されたコマンドをシート生成部103が完了するのに要するサイクル数のプレランタイムの理解を妨げる他の変数に依存し得る。したがって、一実施形態では、スカラー命令351がシート生成部103に発行されるべきコマンドに対応するか、さもなければコマンドをシート生成部103に発行させるVLIWワードは、他の2つの命令フィールド352,353に無操作(NOOP)命令も含む。次に、プログラムコードは、シート生成部がデータ計算ユニットに対するそのロードまたはデータ計算ユニットからのその格納を完了するまで、命令フィールド352,353についてNOOP命令のループに入る。ここで、シート生成部にコマンドを発行すると、スカラープロセッサは、シート生成部がコマンドの完了時にリセットするインターロックレジスタのビットをセットしてもよい。NOOPループの間、スカラープロセッサはインターロックビットのビットを監視する。スカラープロセッサが、シート生成部がそのコマンドを完了したことを検出すると、通常の実行が再び開始される。
【0037】
図4は、データ計算ユニット401の一実施形態を示す。図4において見られるように、データ計算ユニット401は、二次元シフトレジスタアレイ構造406「の上に」論理的に位置決めされる実行レーンのアレイ405を含む。上述したように、様々な実施形態では、シート生成部によって提供される画像データのシートが二次元シフトレジスタ406にロードされる。実行レーンは、レジスタ構造406からのシートデータに対して動作する。
【0038】
実行レーンアレイ405およびシフトレジスタ構造406は、互いに対して適所に固定される。しかし、シフトレジスタアレイ406内のデータは、戦略的かつ調整された態様でシフトして、実行レーンアレイ内の各実行レーンがデータ内で異なるステンシルを処理するようにする。したがって、各実行レーンは、生成されている出力シートにおいて異なるピクセルに対する出力画像値を決定する。図4のアーキテクチャから、実行レーンアレイ405が垂直に近接する実行レーンおよび水平に近接する実行レーンを含むので、重なり合うステンシルが垂直に配置されるだけでなく水平にも配置されることは明らかである。
【0039】
データ計算ユニット401のいくつかの注目すべきアーキテクチャ上の特徴には、実行レーンアレイ405よりも広い寸法を有するシフトレジスタ構造406が含まれる。すなわち、実行レーンアレイ405の外側にレジスタ409の「ハロー」が存在する。ハロー409は、実行レーンアレイの2つの側に存在するように示されているが、実現例に応じて、実行レーンアレイ405の2つ未満(1つ)またはそれ以上(3つまたは4つ)の側に存在してもよい。ハロー405は、データが実行レーン405の「下に」シフトしているときに、実行レーンアレイ405の境界の外側にこぼれ出るデータのための「スピルオーバ」空間を提供する働きをする。単純なケースとして、実行レーンアレイ405の右端を中心とする5×5のステンシルは、ステンシルの最も左側のピクセルが処理されるとき、さらに右側に4つのハローレジスタ位置を必要とすることになる。図面を簡単にするために、図4は、名目上の実施形態において、どちらの側(右、底)のレジスタでも水平方向接続および垂直方向接続の両方を有するであろうとき、ハローの右側のレジスタを、水平方向シフト接続を有するだけとして、およびハローの底側のレジスタを、垂直方向シフト接続を有するだけとして示す。
【0040】
アレイの各行および/もしくは各列またはその一部分に結合されるランダムアクセスメモリ407によって追加のスピルオーバールームが提供される(例えば、ランダムアクセスメモリは、4つの実行レーン行状と2つの実行レーン列状にまたがる実行レーンアレイの「領域」に割り当てられてもよい。簡略化のために、アプリケーションの残りの部分は、主に、行および/または列に基づく割り当てスキームを指す)。ここで、実行レーンのカーネル動作が、それが(一部の画像処理ルーチンが必要とする場合がある)二次元シフトレジスタアレイ406の外にあるピクセル値を処理することを必要とする場合、画像データの面は、例えばハロー領域409からランダムアクセスメモリ407にさらにこぼれ出ることができる。例えば、ハードウェアが実行レーンアレイの右端の実行レーンの右側にわずか4つの記憶素子のハロー領域を含む場合の6X6ステンシルを考える。この場合、ステンシルを完全に処理するために、データをハロー409の右端からさらに右側にシフトする必要があるであろう。ハロー領域409の外側にシフトされたデータは、ランダムアクセスメモリ407にこぼれ出る。ランダムアクセスメモリ407および図3のステンシルプロセッサの他の適用例を以下でさらに説明する。
【0041】
図5aないし図5kは、上述のように実行レーンアレイ「の下で」二次元シフトレジスタアレイ内で画像データがシフトされる態様の実施例を示す。図5aにおいて見られるように、二次元シフトアレイのデータ内容は第1のアレイ507に示され、実行レーンアレイはフレーム505によって示される。また、実行レーンアレイ内の2つの近隣の実行レーン510が簡略化して示されている。この簡単な図示510では、各実行レーンは、シフトレジスタからデータを受け付け、ALU出力からデータを受け付け(例えば、サイクルにわたってアキュムレータとして動作する)、または出力データを出力先に書き込むことができるレジスタR1を含む。
【0042】
各実行レーンはまた、ローカルレジスタR2において、二次元シフトアレイにおけるそれ「の下の」内容が利用可能である。したがって、R1は実行レーンの物理レジスタであり、R2は二次元シフトレジスタアレイの物理レジスタである。実行レーンは、R1および/またはR2によって提供されるオペランドに対して動作可能なALUを含む。さらに詳細に後述するように、一実施形態では、シフトレジスタは、実際にはアレイ位置ごとに複数の(ある「深さ」の)記憶/レジスタ素子で実現されるが、シフト動作は記憶素子の1つの面に限られる(例えば、記憶素子の1つの面のみがサイクルごとにシフトすることができる)。図5aないし図5kは、それぞれの実行レーンから結果のXを格納するために使用されるとしてこれらのより深いレジスタ位置の1つを示している。例示を容易にするために、より深い結果のレジスタは、その対応するレジスタR2の下ではなく、その横に図示されている。
【0043】
図5a〜図5kは、実行レーンアレイ505内に示された実行レーン位置511の対に中心位置が整列された2つのステンシルの計算に焦点を当てている。例示を容易にするために、実行レーン510の対は、実際には、以下の例によれば、それらが垂直方向の近隣実行レーンである場合に、水平方向の近隣実行レーンとして図示されている。
【0044】
図5aで最初に見られるように、実行レーン511はそれらの中央のステンシル位置上に中心を配される。図5bは、両方の実行レーン511によって実行されるオブジェクトコードを示す。図5bにおいて見られるように、両方の実行レーン511のプログラムコードは、シフトレジスタアレイ507内のデータを、1つの位置だけ下にシフトさせ、1つの位置だけ右にシフトさせる。これにより、両方の実行レーン511がそれらのそれぞれのステンシルの左上隅に整列される。次に、プログラムコードは、(R2において)それらのそれぞれの位置にあるデータをR1にロードさせる。
【0045】
図5cに示すように、次にプログラムコードは、実行レーン511の対に、シフトレジスタアレイ507内のデータを1単位だけ左にシフトさせ、各実行レーンのそれぞれの位置の右の値を各実行レーンの位置にシフトさせる。R1の値(以前の値)は、次いで、(R2における)実行レーンの位置にシフトした新しい値とともに加算される。結果はR1に書き込まれる。図5dで見られるように、図5cについて上述したのと同じプロセスが繰り返され、結果のR1に対して、今度は上側実行レーンにおける値A+B+C、および下側実行レーンにおけるF+G+H値を含ませるようにする。この時点で、両方の実行レーン511はそれらのそれぞれのステンシルの上側の行を処理している。(左側に存在する場合には)実行レーンアレイ505の左側でハロー領域に、またはハロー領域が存在しない場合にはランダムアクセスメモリにこぼれ出ることは、実行レーンアレイ505の左側には存在しないことに注目されたい。
【0046】
図5eに示すように、次に、プログラムコードは、シフトレジスタアレイ内のデータを1単位だけ上にシフトさせ、両方の実行レーン511をそれらのそれぞれのステンシルの中間行の右端に整列される。両方の実行レーン511のレジスタR1は、現在、ステンシルの最上行および中間行の一番右の値の合計を含む。図5fおよび図5gは、両方の実行レーンのステンシルの中間行にわたって左方向に移動する継続的な進行を示す。累積加算は、図5gの処理の終了時に、両方の実行レーン511がそれらのそれぞれのステンシルの最上行の値と中間行の値との合計を含むように、継続する。
【0047】
図5hは、各実行レーンをそれの対応するステンシルの最下行に整列させる別のシフトを示す。図5iおよび図5jは、両方の実行レーンのステンシルの過程にわたって処理を完了するための継続的なシフトを示す。図5kは、各実行レーンをデータアレイにおいてそれの正しい位置に整列させ、その結果をそこに書き込むための追加のシフトを示す。
【0048】
図5a〜図5kの例では、シフト動作のためのオブジェクトコードは、(X、Y)座標で表されるシフトの方向および大きさを識別する命令フォーマットを含むことができることに留意されたい。例えば、1つの位置分の上方向シフトのためのオブジェクトコードは、オブジェクトコードでSHIFT0,+1として表現されてもよい。別の例として、1つの位置分の右方向へのシフトは、オブジェクトコードでSHIFT+1,0として表現されてもよい。様々な実施形態では、より大きい大きさのシフトも、オブジェクトコードで指定することができる(例えば、SHIFT0,+2)。ここで、2Dシフトレジスタハードウェアが1サイクルにつき1つの位置だけしかシフトをサポートしない場合、命令は機械によって複数のサイクル実行を要求するように解釈されてもよく、または2Dシフトレジスタハードウェアは、1サイクルにつき2つ以上の位置分シフトをサポートするように設計されてもよい。後者の実施形態はより詳細にさらに下に記載される。
【0049】
図6aは、アレイ実行レーンおよびシフトレジスタ構造の単位セルの別のより詳細な図を示す(ハロー領域のレジスタは、対応する実行レーンを含まない)。実行レーンおよび実行レーンアレイの各位置に関連するレジスタ空間は、一実施形態では、実行レーンアレイの各ノードで、図6aに示す回路系をインスタンス化することによって実施される。図6aに示すように、単位セルは、4つのレジスタR2〜R5からなるレジスタファイル602に結合される実行レーン601を含む。任意のサイクルの間、実行レーン601は、レジスタR1〜R5のいずれかから読み書きすることができる。2つの入力オペランドを必要とする命令の場合、実行レーンはR1〜R5のいずれかからオペランドの両方を取り出すことができる。
【0050】
一実施形態では、二次元シフトレジスタ構造は、近隣のレジスタファイル間のシフトが同じ方向にあるように(例えば、すべての実行レーンは左にシフトする、すべての実行レーンは右にシフトするなど)、それの近隣のレジスタファイルが入力マルチプレクサ604を介する場合に、単一のサイクルの間に、レジスタR2〜R4のいずれか(ただ)1つの内容が、出力マルチプレクサ603を介してその近隣のレジスタファイルの1つにシフト「アウト」され、対応するものからシフト「イン」される内容でレジスタR2〜R4のいずれか(ただ)1つの内容が置き換えられることによって、実現される。同じレジスタがその内容がシフトアウトされて同じサイクルでシフトインされる内容で置き換えられるのが一般的であるかもしれないが、マルチプレクサ構成603,604は、同じサイクル中に同じレジスタファイル内で異なるシフトソースおよびシフトターゲットレジスタを可能にする。
【0051】
図6aに示すように、シフトシーケンスの間、実行レーンは、内容をそのレジスタファイル602からその左、右、上および下の近隣のレジスタファイルにシフトアウトする。同じシフトシーケンスと関連して、実行レーンは、さらに、内容をその左、右、上および下の近隣のレジスタファイルの特定のものからそれのレジスタファイルにシフトする。再び、シフトアウトターゲットおよびシフトインソースは、すべての実行レーンについて同じシフト方向と整合しなければならない(例えば、シフトアウトが右隣に対する場合、シフトインは左隣からでなければならない)。
【0052】
一実施形態では、1サイクルにつき1つの実行レーンにつき1つのレジスタの内容だけをシフトすることが許されるが、他の実施形態では、2つ以上のレジスタの内容をシフトイン/アウトすることが許されてもよい。例えば、図6aに示されたマルチプレクサ回路系603,604の第2の例が図6aの設計に組み込まれる場合、同じサイクルの間に2つのレジスタの内容がシフトアウト/インされてもよい。もちろん、1つのレジスタの内容だけがサイクルごとにシフトされることが許される実施形態では、数学的演算間のシフトのためにより多くのクロックサイクルを消費することによって、複数のレジスタからのシフトが数学的演算間に起こってもよい(例えば、2つのレジスタの内容が、数学的演算間で2つのシフト演算を消費することによって数学的演算間でシフトされてもよい)。
【0053】
実行レーンのレジスタファイルのすべての内容未満がシフトシーケンス中にシフトアウトされる場合、各実行レーンのシフトアウトされないレジスタの内容は適所に残る(シフトしない)ことに留意されたい。したがって、シフトインされる内容と置き換えられないシフトされない内容は、シフトサイクルにわたって実行レーンにローカルに維持される。各実行レーンで見られるメモリユニット(「M」)は、データを、実行レーンアレイ内の実行レーンの行および/または列に関連付けられるランダムアクセスメモリ空間からロードまたはそれに格納するために使用される。ここで、Mユニットは、実行レーンの自身のレジスタ空間からロードまたはそれに格納できないデータをロード/格納するためによく使用されるという点で、標準的なMユニットとして機能する。様々な実施形態では、Mユニットの主な動作は、ローカルレジスタからメモリにデータを書き込み、メモリからデータを読み出してそれをローカルレジスタに書き込むことである。
【0054】
ハードウェア実行レーン601のALUユニットによってサポートされるISAオペコードに関して、様々な実施形態において、ハードウェアALUによってサポートされる数学的オペコードは、仮想実行レーンによってサポートされる数学的オペコード(例えば、ADD、SUB、MOV、MUL、MAD、ABS、DIV、SHL、SHR、MIN/MAX、SEL、AND、OR、XOR、NOT)と一体的に結び付けられる(例えば実質的に同じである)。上述のように、メモリアクセス命令は、実行レーン601によって実行され、データをそれらの関連付けられるランダムアクセスメモリからフェッチまたはそれに格納することができる。さらに、ハードウェア実行レーン601は、シフト演算命令(右、左、上、下)をサポートし、二次元シフトレジスタ構造内でデータをシフトする。上述したように、プログラム制御命令は主にステンシルプロセッサのスカラープロセッサによって実行される。
【0055】
c.画像プロセッサ上の畳み込みニューラルネットワーク(CNN)の実現例
図7は、三次元(3D)畳み込みのグラフィック描写を示す。当該技術分野において公知であるように、3D畳み込みを使用して、例えば画像処理アプリケーション、マシンビジョンアプリケーション、物体認識アプリケーションおよび/または機械学習アプリケーションのための畳み込みニューラルネットワーク(CNN)を実現することができる。図7に見られるように、三次元畳み込みは、画像データ701の三次元ブロックおよび係数702の三次元ブロックを「畳み込む」。ここで、係数702の三次元ブロックは、画像データ701内の同じサイズのブロックにわたって畳み込まれて、結果の表面領域703を生成する。
【0056】
実際には、画像データ701および係数データ702は、情報の三次元マトリックスとして実現される。すなわち、画像データ701は、ピクセルデータの三次元マトリックスとして実現されてもよく、係数データ702は、係数値の三次元マトリックスとして実現されてもよい。3D畳み込みを実行するために、三次元ドット積が計算され、それによって、係数と同じ寸法を有する画像データ701のより小さな三次元部分(より小さな部分705など)におけるピクセルには、それぞれ、係数702の三次元マトリックス内の同じ位置に位置決めされた係数が乗算される。
【0057】
次に、個々の乗算の各々からの部分積を加算して、ドット積の結果に対応する単一値(スカラー)を生成する。スカラー結果は、畳み込まれた画像データ701内のより小さな領域の位置に対応する位置の結果アレイ703に位置する。例えば、係数702を用いたより小さな部分705の畳み込みにより、結果の表面703内の位置704に位置するスカラーが生成される。同様に、係数702を用いたより小さな部分707(図面を簡単にするために、その最上面のみを見ることができる)の畳み込みにより、結果の領域703内の位置706に位置決めされるスカラー値が生成される。
【0058】
このように、係数702を乗算される画像データの各々の異なるより小さな部分について異なるスカラー値が生成され、異なるスカラーの各々は、結果の表面領域703内にそれぞれの位置を有する。3D畳み込みの実現例の様々な実施形態の詳細については、さらに詳細に後述する。
【0059】
CNN層は、典型的には、画像データのブロック当たり複数の3D畳み込みを含む。より具体的には、CNN層は、典型的には、画像データの単一のブロックを用いて畳み込まれる係数の複数のブロックを含む。図8は、そのようなCNN層の一例を示す。ここでは、画像データの同じブロック801が係数の複数のブロック802_1〜802_Nを用いて畳み込まれて、N個の結果の表面領域803_1〜803_Nを生成する。したがって、全体の結果803は、三次元ブロック803がN個の結果面を有するものとして見なすことができる。様々な処理アプリケーションでは、三次元結果ブロック803は、次のCNN計算のための入力画像ブロックとして使用される。図8の処理は、単一のCNN層の処理に対応する。完全なCNNは、複数のそのようなCNN層の実行から算出することができる。
【0060】
図9aおよび図9bは、3D畳み込みの実施形態を示す。図9aを参照して、画像データのブロック901(図8における画像データのブロック801に対応する)は、画像データの複数の面から構成されるものとして見なすことができる。すなわち、画像データのブロック901は、z軸に沿った第1の深さ位置における第1の面901_1、z軸に沿った第2の深さ位置における第2の面901_2など…およびz軸に沿ったM番目の深さ位置におけるM番目の面901_Mから構成されるものとして見なすことができる。実際には、z軸に沿った各レベルまたは深さは、画像データの異なる「チャネル」に対応し得る。例えば、M=3である場合、第1の面のレベル901_1は赤色(R)データに対応してもよく、第2の面のレベル901_2は緑色(G)データに対応してもよく、第3の面のレベル901_3は青色(B)データに対応してもよい。
【0061】
同様に、係数のブロック902_1(図8における係数の第1のブロック802_1に対応する)も、M「深さ」z軸位置に沿った係数データのM個の面から構成されるものとして見なすことができる。3D畳み込みは、M回の二次元(2D)畳み込みの合計として計算される。ここで、同じ深さレベルに沿って存在する画像データおよび係数は、2D畳み込み演算で畳み込まれて、当該深さレベルの中間結果面を生成する。
【0062】
例えば、画像データ面901_1および係数面902_1_1の第1の2D畳み込みを実行して第1の中間結果面P1_1を生成し、画像データ面901_2および係数面902_1_2の第2の2D畳み込みを実行して第2の中間結果面P1_2を生成するなど…、画像データ面901_Mおよび係数面902_1_MのM番目の2D畳み込みを実行してM番目の中間結果面P1_Mを生成する。次に、中間面P1_1〜P1_Mを整列させた態様で加算して(910)(中間面アレイの同じ位置のスカラー値を加算する)、結果のアレイ903_1を生成する。結果のアレイ903_1は、図8における結果のアレイ803_1に対応する。
【0063】
図9bは、画像および係数データの各z軸深さレベルにおいて実行され得る2D畳み込みの例示的な実施形態を示す。図9bは、同じ面内の画像データのより小さな部分に対応するデータの12個の隣接ピクセル(A〜L)を示す。画像データと同じ面レベルに存在する係数の面(a1〜a9)も示されている。係数データをステンシル位置950と整列させるときに実行される演算940は、当該面レベルの中間面において単一のスカラー結果S_P1を生成する。一方、係数データをステンシル位置951と整列させるときに実行される演算941は、当該面レベルの中間面において単一のスカラー結果S_P2を生成する。
【0064】
演算940および941の各々は、大規模乗加算演算として特徴付けることができる(9回の乗算および8回の加算が実行される)ことに留意されたい。ステンシル位置950,951が互いに隣接しているので、スカラー結果S_P1およびS_P2は、結果の中間面内で互いに隣接して位置することになる。ここで、ステンシル位置は、画像データの面全体の表面領域にわたって「スライド」し、各々の固有のステンシル位置によって定義される対応する「乗加算」演算は、中間面において固有の結果値を生成する。中間面内における結果値の互いに対する位置は、それらを生成したステンシルの相対位置によって定義される。
【0065】
図9aに戻って、M個の中間面P1_1〜P1_Mを合計して(910)、結果面903_1を生成する。図9aの計算は、全ての係数セットが計算されるまで、毎回異なる係数セットでN回繰り返される。すなわち、図8および図9aおよび図9bから得られるように、図9aおよび図9bの演算は、結果面803_1〜803_Nを生成するように係数セット802_1〜802_Nの各々についてN回実行される。
【0066】
図10a〜図10jは、本明細書の先のセクションで説明したアーキテクチャ特徴を有する画像プロセッサ上でのCNN層の計算に関連する。ここで、読者は、図10a〜図10jだけでなく図4も参照する。先のセクションで説明したように、ステンシルプロセッサは、二次元実行レーンアレイ405および対応する二次元シフトレジスタアレイ406を有してもよい。以下の説明から明らかであるように、図10a〜図10jの手法は、画像データがステンシルプロセッサの中に/から外に切り換えられる回数を最小化しながらステンシルプロセッサの二次元処理性を利用することを目指すものである。
【0067】
図10aは、画像データの第1の面1001_1の1枚以上のシートがステンシルプロセッサのローカルメモリ407にロードされる初期セットアップ段階を示す。例示を容易にするために、図10aは、画像面の全てのシートがステンシルプロセッサのRAMにロードされることを提案しているが、動作時には、シート生成部が完全な画像面1001_1を受け取り、当該画像面をシートに解析し、シートをステンシルプロセッサのRAM407に適宜供給する(例えば、前のシート上での処理の完了時または完了前に次のシートがRAMにロードされる)より段階的なアプローチがとられてもよい。また、係数セット1002_1〜1002_Nの全てではないとしても、少なくとも第1の係数セット1002_1がステンシルプロセッサRAM407にロードされる。ここで、比較点として、図10の画像データ面1001_1は図9の画像データ面901_1に対応し、図10の係数セット1002_1は図9の係数セット902_1に対応する。さらなる比較点として、図10の係数セット1002_1〜1002_Nは、図8の係数セット802_1〜802_Nに対応する。
【0068】
画像データの第1の面1001_1および第1の係数セット1002_1がステンシルプロセッサRAM407にロードされると、システムは、図9bに関連して上記した2D畳み込みを実行する準備が整う。図10bは、画像データ1001_1が係数データ1002_1_1(図9aの係数データ902_1_1に対応する)を用いて畳み込まれる畳み込みを示す。2D畳み込みは、画像データの1枚以上のシートをステンシルプロセッサRAMから画像プロセッサの二次元レジスタ構造にロードすることを含む。次に、2D畳み込み自体が実行され、中間面P1_1がもたらされる。2D畳み込みを実際にどのようにして実行できるかについてのより完璧な説明は、図11a〜図11fに関連して以下でさらに行われる。
【0069】
第1の画像面1001_1が第1の係数面1002_1を用いて畳み込まれると、機械は、演算の次のシーケンスを開始する準備が整う。ここで、図9aに示される一連の演算が順番に実行される場合、画像面901_1をステンシルプロセッサRAMから外に切り換えることおよび画像面901_2をステンシルプロセッサRAMの中に切り換えることが必要であろう。その後、図8および図9aを参照して、係数セット802_2〜802_Nのうちのいずれか/全てを用いて実行される2D畳み込みのために、画像面901_1をステンシルプロセッサRAMの中に再び切り換える必要があろうということに留意されたい。したがって、場合によっては、画像面901_1をステンシルプロセッサRAMの中に/から外にN回切り換える必要があるだろう。図9aによって提案されている厳密な処理順序をたどるのではなく、ステンシルプロセッサの中への画像データの同じ面の切り換えおよびステンシルプロセッサから外への画像データの同じ面の切り換えが行ったり来たりすることを排除するために、その代わりに、画像データの面は、一旦ステンシルプロセッサRAMにロードされると、CNN層の全ての係数セットを処理するために使用されるまでそこにとどまる。
【0070】
したがって、図10cに示されるように、プロセスの次のシーケンスは、同じ画像面1001_1を次の係数セットにおける第1の面を用いて畳み込むというものである。そのようなものとして、図10cは、画像面1001_1および係数面1002_2_1(第2の係数セットにおける第1の面)で2D畳み込みが実行されることを示す。結果は、第2の係数セットP2_1のための第1の中間面である。処理シーケンスは、同じ初期の画像面1001_1を係数の各々の第1の面を用いて畳み込み続ける。図10dは、初期の画像面1001_1を含む最後の2D畳み込みシーケンスを示す。ここで、2D畳み込みは、N番目の係数セット1002_Nの最上面1002_N_1を用いて実行され、N番目の係数セットPN_1のための第1の中間結果面を生成する。
【0071】
図10dの演算の完了後、初期の画像面1001_1は、使い果たされており、ステンシルプロセッサRAMから外に切り換えられる(または、例えば廃棄されさえする)ことができる。したがって、図9aを簡単に参照して、次のレベルの画像データ901_2をここでステンシルプロセッサRAMの中に切り換えることができる。図10eは、前の画像データ面1001_1がステンシルプロセッサRAMから外に切り換えられ(それがもはやステンシルプロセッサRAMに存在しないことを示すために、その輪郭は陰影線で描かれている)、次の画像面1001_2がステンシルプロセッサRAMの中に切り換えられている(それが現在はステンシルプロセッサRAM内に存在することを示すために、その輪郭は実線で描かれている)新たなシステム状態を示す。
【0072】
図10fは、第1の係数セット1002_1における第2のレベルの係数1002_1_2を用いた新たな第2の画像面1001_2の2D畳み込みを示す。当該畳み込みの結果は、第1の係数セット1002_1のための第2の中間面P1_2である。図10gは、第2の係数セット1002_2のための第2の中間結果層P2_2を生成する、係数セット1002_2における第2のレベルの係数1002_2_2を用いた画像面1001_2の次の畳み込みを示す。図10hは、N番目の係数セット1002_2のための第2の中間結果層PN_2を生成する、係数セット1002_Nにおける第2のレベルの係数1002_N_2を用いた画像面1001_2の最後の畳み込みを示す。
【0073】
第2の画像面1001_2が使い果たされた後、第1および第2の画像面について上記したように、第3の画像面がロードされて処理される。次に、各画像面は、連続して同様に処理される。図10iは、最後の中間結果面PN_Mを生成する、最後の係数セット1002_Nのための最下位レベルの係数1002_N_Mを用いた最後の画像面1001_Mのための最後の2D畳み込みを示す。この時点で、全ての係数セットのための全ての中間面が計算されている。図10jは、各係数セットについて最終結果面を生成するための、特定の係数セットについての全ての中間面の合計を示し、最終結果面は、さらにはCNN層の結果に対応する。すなわち、図9aの合計910は、N個の係数セットの各々について実行される。したがって、結果面1003_1〜1003_Nの各々は、図8の結果面803_1〜803_Nに対応する。
【0074】
一実施形態では、機械は、各中間面を別々に格納してからそれらを合計するのではなく、「中間面累計和」を続けることによって10jの加算を実行する。例えば、図10aおよび図10fを参照して、中間面P1_2が作成された直後に中間面P1_2が中間面P1_1に加算される。結果として生じる面P1_1およびP1_2の合計は、例えばステンシルプロセッサユニットの内部に格納される。第1の係数セット内の第3の面1002_1_3(図示せず)を用いた第3の画像面の2D畳み込みの結果として中間面P1_3(これも図示せず)が作成されると、P1_1/P1_2合計結果がその後呼び戻されて、中間面P1_3に加算される。結果は、再び格納され、中間面P1_4の作成後に中間面P1_4に加算するために呼び戻されることになる。同様の処理は、他の係数セットの中間面にも適用される。累計和および中間面のx,y次元が二次元シフトレジスタアレイの次元よりも大きい場合、合計は、累計和および次の中間面をシートに解析し、当該シートを例えばシート単位での処理のために二次元シフトレジスタアレイにロードすることによって実行することができるということに留意されたい。
【0075】
図11a〜図11jは、3×3ステンシルサイズのために2D畳み込みを実行する実施形態を記載している。さらに詳細に後述するように、他のステンシルサイズも可能である。図11aを参照して、画像データA〜Rが二次元シフトレジスタにロードされる。図11aは、画像データに相当する2つのステンシル1101,1102を示す。簡潔にするために、図11a〜図11fjの記載は、図11aに示されるようにピクセル位置HおよびKにおいて出力結果を生成するステンシル1101,1102のための2D畳み込みに焦点を当てている。しかしながら、各ピクセル位置を中心とする異なるステンシルが存在し、図11a〜図11jに関連して説明する2D畳み込みプロセスがこのようなピクセル位置ごとに畳み込み結果を同時に生成することを認識することは重要である。
【0076】
図11aを参照して、2D畳み込みを実行するために、各画像データステンシル内にそれぞれに位置するピクセルを係数値1103に乗算する必要がある。すなわち、ピクセル値AおよびDの両方に係数a1が乗算され、その理由は、両方のそのようなピクセル値およびa1がステンシルの左上隅に位置しているからである。ピクセル値CおよびFの両方に係数a3が乗算され、その理由は、両方のそのようなピクセル値および係数がステンシルの右上隅に位置しているからである。2D畳み込み結果は、ピクセル値および対応する係数の9個の部分積全ての合計である。さらに詳細に後述するように、一実施形態では、部分積の合計は、9個のサイクルにわたって行われる。
【0077】
図3bの説明から、様々な実施形態では、ステンシルプロセッサは、即値オペランドを含むスカラー命令を全ての実行レーンに対して発行することができるということを思い起こされたい。一実施形態では、2D畳み込みは、一連のスカラー乗加算命令を発行することによって実行され、係数は、即値オペランドとして命令語に含まれる。
【0078】
図11bを参照して、第1のサイクル中に、中間オペランドとして係数a5を有するスカラー命令が発行される。当該命令を実行する際、係数a5に画像データアレイの中のあらゆるピクセル値が乗算され、結果は、その対応する実行レーン内のピクセル値にローカルなレジスタ空間に格納される。再び、ピクセル位置HおよびKを中心とする一対のステンシル1101,1102のみを参照して、係数a5にHおよびKが乗算される。部分積H×a5は、ステンシル1101(現在のところピクセル値Hを有している)の中心のピクセル位置1121における実行レーンレジスタ空間にローカルに格納される。部分積K×a5は、ステンシル1102(現在のところピクセル値Kを有している)の中心のピクセル位置1122における実行レーンレジスタ空間にローカルに格納される。ここで、ステンシル1101および1102の周囲の境界およびそれらの中のピクセル位置は、各ピクセル位置に専用のALUおよびローカルレジスタ空間を含むハードウェアの固定領域として見なすことができることに留意されたい。すなわち、ステンシル1101および1102内の各ピクセルは、各々が専用のALU実行ユニットおよび専用のローカルレジスタ空間を有するハードウェア実行レーンとして見なすことができる。
【0079】
図11cを参照して、第2のサイクル中に、二次元シフトレジスタアレイ内の画像データを1単位だけ右にシフトさせるための第1のシフト命令が実行され、中間オペランドとして係数a4を有する次のスカラー乗加算命令が発行される。第2の命令を実行する際、係数a4に画像データアレイの中のあらゆるピクセル値が乗算され、結果は、その対応する実行レーン内のピクセル値にローカルなレジスタ空間に格納される。再び、ここではピクセル位置GおよびJを中心とする一対のステンシル1101,1102のみを参照して、係数a4にGおよびJが乗算される。部分積G×a4は、ステンシル1101の中心(すなわち、値H×a5を含むピクセル位置1121)の実行レーンレジスタ空間におけるローカルに格納された値に加算され、結果S_Hは、同じレジスタ空間に書き戻される。部分積J×a4は、ステンシル1102の中心(すなわち、現在のところ値K×a5を有しているピクセル位置1122)の実行レーンレジスタ空間におけるローカルに格納された値に加算され、結果S_Kは、同じレジスタ空間に書き戻される。
【0080】
図11dを参照して、第3のサイクル中に、二次元シフトレジスタアレイ内の画像データを1単位だけ下にシフトさせるための第1のシフト命令が実行され、中間オペランドとして係数a1を有する次のスカラー乗加算命令が発行される。第2の命令を実行する際、係数a1に画像データアレイの中のあらゆるピクセル値が乗算され、結果は、その対応する実行レーン内のピクセル値にローカルなレジスタ空間に格納される。再び、ここではピクセル位置AおよびDを中心とする一対のステンシル1101,1102のみを参照して、係数a1にAおよびDを乗算する。部分積A×a1は、ステンシル1101(図11cからの値S_Hを含む)の中心の実行レーンレジスタ空間におけるローカルに格納された値に加算され、結果S_Hは、同じレジスタ空間に書き戻される。部分積D×a1は、ステンシル1102(図11cからの値S_Kを含む)の中心の実行レーンレジスタ空間におけるローカルに格納された値に加算され、結果S_Kは、同じレジスタ空間に書き戻される。
【0081】
図11e〜図11jは、まだ係数を乗算されていない新たなピクセル値をステンシルの中心に配置する対応するシフトを各々が有する6個以上のそのようなサイクルを示す。図11jの最後のサイクルが実行された後、2D畳み込みの結果は、各ステンシルの中心のローカルレジスタ空間に存在する(ステンシル1101の値S_Hおよびステンシル1102の値S_K)。
【0082】
上記の説明は、CNN層全体が同じステンシルプロセッサ上で実行されるアプローチに向けられていたが、他のアプローチは、複数のステンシルプロセッサにわたってCNN層の実行を並列処理しようとしてもよい(図8がCNN層に関連付けられた計算の実施形態を示していることを思い起こされたい)。例えば、図8および図12を参照して、Nがステンシルプロセッサの数未満である場合、各ステンシルプロセッサは、それ自身の3D畳み込みを割り当てられてもよい(すなわち、各ステンシルプロセッサは、それ自身の固有の係数セットを用いて3D畳み込みを実行する)。したがって、各ステンシルプロセッサは、同じ画像データを受け取るが、異なる係数セットを用いてそれを畳み込む。この場合、図9aによって提案される順序付けを各ステンシルプロセッサにおいてたどることができる(すなわち、各ステンシルプロセッサは、単一の係数セットに対して画像データの各面を畳み込む)。Nがステンシルプロセッサの数よりも大きくても、例えば各ステンシルプロセッサに2つ以上の固有の係数セットを処理させることによって、CNN層の実行を依然として分散させる/並列処理することができる。
【0083】
図13に示されるさらに別の並列処理アプローチでは、入力画像データの異なる面が異なるステンシルプロセッサに固有に割り当てられる。各ステンシルプロセッサは、例えば全ての係数セットに適切な面レベルでロードされる。例えば、第1の(最も高い)画像データ面を処理するように割り当てられたステンシルプロセッサ1302_1は、N個全ての係数セットの第1の(最も高い)面を受け取る。次に、ステンシルプロセッサは、図10b〜図10dの演算の実行に進むが、同時に、第2の(次に低い)画像面を処理するように割り当てられた別のステンシルプロセッサ1302_2が図10f〜図10hの畳み込みを実行する。このアプローチでは、同じ係数セットについての中間合計面は、複数のステンシルプロセッサにわたって分散されることになり、その後、整列された合計を行って当該係数セットについて特定の結果面を生成するために同一のステンシルプロセッサに移動させるべきである。ここでは、異なるステンシルプロセッサが異なる係数セットについての異なる結果面を同時に計算することができる。このアプローチの拡張機能では、(例えば、画像データ面の数がステンシルプロセッサの数を超える場合)画像データの2つ以上の面が任意の特定のステンシルプロセッサに割り当てられてもよい。
【0084】
図14に示されるさらに別のアプローチでは、各ステンシルプロセッサは、結果面の特定の領域のみで動作するように割り当てられ得る。例えば、第1のステンシルプロセッサ1402_1は、画像面表面領域の第1の象限で動作し、第2のステンシルプロセッサ1402_2は、画像面表面領域の第2の象限で動作し、第3のステンシルプロセッサ1402_3は、画像面表面領域の第3の象限で動作し、第4のステンシルプロセッサ1402_4は、画像面表面領域の第4の象限で動作する。各ステンシルプロセッサは、CNN層全体を実行するが、画像全体の表面領域の1/4で実行する。最終的な結果面は、関連付けられたステンシルプロセッサが処理した正確な象限において隣接した適切な結果面を「適合させる」ことによって実現される。図14は、画像が4つの象限に分類される1つのタイプの実施形態のみを示す。他の構成は、4つ未満の固有の表面(例えば、二等分)またはそれ以上の固有の表面領域(例えば、9個、16個など)を有していてもよい。異なる画像セクション間のいかなる重複する入力も、2つ以上のステンシルプロセッサに送られるべきである。
【0085】
さらに他の構成では、各々がN個の係数セットを有する2つ以上のCNN層が単一のステンシルプロセッサ上で実行されてもよい。一実施形態では、単一のステンシルプロセッサ上での複数のCNN層の実行は、複数のCNN層間で時間多重化を行うことによって実行されてもよい。図15は、2つの異なるCNN層が同一のステンシルプロセッサ上で多重化されている単純な例を示す。ここでは、入力画像データ1501_1の第1の面がステンシルプロセッサRAMにロードされる。次に、ステンシルプロセッサは、第1のCNN層のための係数セット1502_1〜1502_Nの各々についての適切な面を有する画像データ1501_1の2D畳み込みの実行に進む。結果の中間面は、上記のように、動作中のサムアキュムレータにおいて合計される。
【0086】
第1のCNN層のための最後の係数セット1502_Nが畳み込まれて、その中間面がアキュムレータに加算された後、次のCNN層が処理される。すなわち、画像データ面1501_1は、ステンシルプロセッサのアクティブな文脈から切り換えられるのではなく、その代わりに第2のCNN層のための係数セット1512_1〜1512_Nの適切なそれぞれの層とともに使用され続ける。第2のCNN層のための中間面は、第1のCNN層のためのアキュムレータとは別のアキュムレータに蓄積される。第2の係数セット1512_1〜1512_Nの適切なそれぞれの面が処理された後、画像データのための次の画像面がステンシルプロセッサの文脈に切り換えられ、プロセスは繰り返すが、両方の係数セットについて異なるそれぞれの面で繰り返す。
【0087】
さらに別のアプローチでは、第1のCNNのための出力は、第2のCNNのための入力として直接供給される。例えば、係数セット1502についての中間面の合計は、係数セット1512を有するステンシルプロセッサによって実行される次の後続のCNNのための入力画像面を生成する。
【0088】
さらに他の構成では、(異なる画像上でのCNNを画像プロセッサによって同時に実行できるように)異なる独立した画像が異なるステンシルプロセッサに割り当てられてもよい。
【0089】
先の説明では3×3ステンシルサイズが強調されたが、一実施形態では、複数の3Dステンシル(例えば、1×1×M、3×3×M、5×5×Mおよび7×7×M)を(例えば、画像プロセッサの構成レジスタ空間および/またはコンパイルされたプログラムコードを介して)サポートするように機械が設計される。
【0090】
上記の乗算および加算演算は、浮動小数点表記で算出されてもよいが、他の実施形態では、それは固定小数点整数表記で算出されてもよい。さらに、固定整数表記は、低精度(例えば、8ビット以下(5ビットなど))である場合もあれば、高精度である場合もある。低精度固定整数は、多くの用途にとって画質を損なうことなくより時間/エネルギ効率がよいと理解されている。
【0091】
様々な実施形態では、実行可能なプログラムコードは、サイクル当たり2回の乗加算(MAD)を実現するために単一のALUレーン上で2回(例えば、8ビット)のMADを実行するように構築される。一実施形態では、ALUレーンハードウェアは、2回の8ビット単位の乗算(すなわち、4つの8ビット入力オペランド)を実行し、次に2つの16ビット積と32ビットアキュムレータとを加算して、1サイクルにおいて32ビット和を生成する。ここで、アキュムレータは、乗算結果に加算される32ビット入力オペランドに対応し、合計結果は、出力「アキュムレータ」レジスタに書き込まれる。ここで、乗算は両方とも、出力面内の同じピクセルについてなされると想定されるため、加算することができる。4つの8ビット入力オペランドは、同じ入力画像面からの2つの入力および2つの係数値から構成される。
【0092】
代替的な実施形態では、各ALUレーンは、サイクル当たり2回のMADを実現するためにデュアル8ビット乗加算をサポートするように設計される。すなわち、ハードウェアは、第1の8ビット×8ビット乗算および結果の16ビットアキュムレータへの16ビット入力オペランドとの結果の合計を実行し、別の第2の8ビット×8ビット乗算および別の16ビットアキュムレータへの別の16ビット入力オペランドとの結果の合計を実行する。しかし、16ビットアキュムレータは、単一のサイクルにおいて(例えば、フル8ビット入力被乗数で)飽和することが起こり得て、これは、サイクルごとに32ビットアキュムレータへの転送を必要とし、全体レートを概してサイクル当たり1回のMADに減少させる可能性がある。
【0093】
飽和ヒットを回避するために、より低い解像度の入力被乗数データが使用されてもよい。例えば、一対の6ビット×6ビット乗算が実行されてもよく、それぞれの結果は、それぞれの異なる16ビット入力オペランドを有する別々のそれぞれの16ビットアキュムレータに合計される。より低い解像度の入力被乗数は、16ビットアキュムレータの飽和および対応する32ビットアキュムレータへの転送の前に複数のサイクルを必要とする。例えば、飽和は16サイクルごとに起こり得る。16サイクルごとの飽和の場合、17番目のサイクルごとにデュアル16ビットアキュムレータが加算されてもよく、18番目のサイクルごとに、直前のデュアルアキュムレータ合計の結果が動作中の32ビットアキュムレータに加算されてもよい。一実施形態では、ハードウェアは、単一のサイクルにおいて32ビットアキュムレータへのアキュムレータ合計および加算を実行するように設計されてもよい。様々な実施形態では、このようなより低い精度のアプローチは、サイクル当たり1.8回の乗加算を実現することができるであろう。
【0094】
(例えば、8ビット以上の入力被乗数データを有する)より高い精度のアプリケーションは、サイクル当たり約1回のMADが実行される状態で32ビット入力合計オペランドおよびアキュムレータ結果を使用するように設計され得る。そうすることにより、低精度のアプローチと同様に、相当数のサイクルの実行後までだけアキュムレータの飽和が回避される。例えば、12ビットの入力被乗数画像データの場合、32ビットアキュムレータが飽和する前に、単一のMADが256サイクル実行される。
【0095】
図16は、実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するステップ(1601)を含む方法を示す。二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を実行レーンに提供する。畳み込みニューラルネットワークを実行するステップは、画像データの三次元ブロックの画像データの面を二次元シフトレジスタにロードするステップ(1602)を含む。また、畳み込みニューラルネットワークを実行するステップは、係数値のアレイを用いて画像データの面の二次元畳み込みを実行するステップ(1603)を含み、二次元畳み込みを実行するステップは、実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、実行レーン内で、部分積と、画像データ内の様々なステンシルのために二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、二次元シフトレジスタアレイ内で内容をシフトすることによって実行レーン内で二次元畳み込みのための値の正確な整列を行うステップと、をシーケンシャルに実行することによって行われる。
【0096】
d.実現例の実施形態
上述した様々な画像プロセッサアーキテクチャの特徴は、必ずしも従来の意味での画像処理に限定されず、したがって、画像プロセッサを再特徴付けしてもよい(またはしなくてもよい)他のアプリケーションに適用することができることを指摘することが適切である。例えば、実際のカメラ画像の処理とは対照的に、アニメーションの作成および/または生成および/またはレンダリングにおいて上述した様々な画像プロセッサアーキテクチャの特徴のいずれかが使用される場合、画像プロセッサはグラフィックス処理ユニットとして特徴付けられてもよい。さらに、上述した画像プロセッサアーキテクチャの特徴は、ビデオ処理、視覚処理、画像認識および/または機械学習などの他の技術的用途にも適用することができる。このように適用されて、画像プロセッサは、より汎用的なプロセッサ(例えば、コンピューティングシステムのCPUであるか、またはその一部である)と(例えばコプロセッサとして)一体化されてもよく、またはコンピューティングシステム内のスタンドアロンプロセッサであってもよい。
【0097】
上述したハードウェア設計の実施形態は、半導体チップ内において、および/または最終的に半導体製造プロセスに向けての回路設計の記述として実施することができる。後者の場合、そのような回路記述は、(例えばVHDLまたはVerilog)レジスタ転送レベル(RTL)回路記述、ゲートレベル回路記述、トランジスタレベル回路記述もしくはマスク記述またはそれらの様々な組み合わせの形態をとってもよい。回路記述は、典型的には、コンピュータ可読記憶媒体(例えばCD−ROMまたは他のタイプの記憶技術)上に実施される。
【0098】
先のセクションから、上記の画像プロセッサは、(例えば、ハンドヘルド装置のカメラからのデータを処理するハンドヘルド装置のシステムオンチップ(SOC)の一部として)コンピュータシステム上のハードウェアで実施できることを認識することに関係する。画像プロセッサがハードウェア回路として実施される場合、画像プロセッサによって処理される画像データはカメラから直接受信されてもよいことに留意されたい。ここで、画像プロセッサは、別体のカメラの一部であってもよいし、一体化されたカメラを有するコンピューティングシステムの一部であってもよい。後者の場合、画像データは、カメラから直接、またはコンピューティングシステムのシステムメモリから受信することができる(例えば、カメラは、その画像データを画像プロセッサではなくシステムメモリに送信する)。先のセクションで説明した機能の多くは、(アニメーションをレンダリングする)グラフィックスプロセッサユニットにも適用可能であることにも留意されたい。
【0099】
図17は、コンピューティングシステムの例示的な図である。以下に説明するコンピューティングシステムのコンポーネントの多くは、一体化されたカメラおよび関連する画像プロセッサ(例えば、スマートフォンまたはタブレットコンピュータなどのハンドヘルドデバイス)を有するコンピューティングシステムに適用可能である。当業者は、2つの間の範囲を容易に定めることができるであろう。
【0100】
図17に見られるように、基本的なコンピューティングシステムは、中央処理ユニット1701(例えば、マルチコアプロセッサまたはアプリケーションプロセッサ上に配置された複数の汎用処理コア1715_1〜1715_Nおよびメインメモリコントローラ1717を含み得る)、システムメモリ1702、ディスプレイ1703(例えばタッチスクリーン、フラットパネル)、ローカル有線ポイントツーポイントリンク(例えばUSB)インタフェース1704、様々なネットワークI/O機能1705(イーサネット(登録商標)インタフェースおよび/またはセルラーモデムサブシステムなど)、無線ローカルエリアネットワーク(例えばWiFi)インタフェース1706、ワイヤレスポイントツーポイントリンク(例えばブルートゥース(登録商標))インタフェース1707およびグローバルポジショニングシステムインタフェース1708、様々なセンサ1709_1〜1709_N、1つ以上のカメラ1710、バッテリ1711、電力管理制御ユニット1712、スピーカおよびマイクロホン1713、ならびに音声コーダ/デコーダ1714を含んでもよい。
【0101】
アプリケーションプロセッサまたはマルチコアプロセッサ1750は、そのCPU1701内における1つ以上の汎用処理コア1715、1つ以上のグラフィカル処理ユニット1716、メモリ管理機能1717(例えばメモリコントローラ)、I/O制御機能1718および画像処理ユニット1719を含んでもよい。汎用処理コア1715は、典型的には、コンピューティングシステムのオペレーティングシステムおよびアプリケーションソフトウェアを実行する。グラフィックス処理ユニット1716は、典型的には、例えばディスプレイ1703上に提示されるグラフィックス情報を生成するために、グラフィックス集中型機能を実行する。メモリ制御機能1717は、システムメモリ1702とインタフェースして、システムメモリ1702との間でデータの書込/読出を行う。電力管理制御ユニット1712は、システム1700の電力消費を全体的に制御する。
【0102】
画像処理ユニット1719は、先のセクションで説明した画像処理ユニットの実施形態のいずれかに従って実現することができる。代替的にまたは組み合わせて、IPU1719は、GPU1716およびCPU1701のいずれかまたは両方にそのコプロセッサとして結合されてもよい。さらに、様々な実施形態では、GPU1716は、上で説明した画像プロセッサの特徴のいずれかを用いて実現することができる。
【0103】
タッチスクリーンディスプレイ1703、通信インタフェース1704〜1707、GPSインタフェース1708、センサ1709、カメラ1710、およびスピーカ/マイクコーデック1713,1714の各々はすべて、適切な場合には、一体化された周辺装置(例えば1つ以上のカメラ1710)も含むコンピューティングシステム全体に対して様々な形態のI/O(入力および/または出力)として見ることができる。実現例によっては、これらのI/Oコンポーネントの様々なものは、アプリケーションプロセッサ/マルチコアプロセッサ1750上に統合されてもよく、またはアプリケーションプロセッサ/マルチコアプロセッサ1750のダイから離れて、またはそのパッケージ外に配置されてもよい。
【0104】
一実施形態では、1つ以上のカメラ1710は、カメラとその視野内の対象との間の深度を測定することができる深度カメラを含む。アプリケーションプロセッサまたは他のプロセッサの汎用CPUコア(もしくはプログラムコードを実行するために命令実行パイプラインを有する他の機能ブロック)上で実行されるアプリケーションソフトウェア、オペレーティングシステムソフトウェア、デバイスドライバソフトウェアおよび/またはファームウェアは、上記の機能のいずれかを実行してもよい。
【0105】
本発明の実施形態は、上述したような様々なプロセスを含むことができる。これらのプロセスは、機械実行可能命令で実施されてもよい。これらの命令は、汎用または特殊目的のプロセッサに特定のプロセスを実行させるために使用できる。代替的に、これらのプロセスは、プロセスを実行するためのハードワイヤード論理を含む特定のハードウェアコンポーネントによって、またはプログラミングされたコンピュータコンポーネントとカスタムハードウェアコンポーネントとの任意の組み合わせによって実行されてもよい。
【0106】
本発明の要素はまた、機械実行可能命令を記憶するための機械可読媒体として提供されてもよい。機械可読媒体は、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、および光磁気ディスク、フラッシュメモリ、ROM、RAM、EPROM、EEPROM、磁気もしくは光カード、伝搬媒体、または電子命令を記憶するのに適した他のタイプの媒体/機械可読媒体を含むが、それらに限定はされない。例えば、要素は、搬送波または通信リンク(例えばモデムもしくはネットワーク接続)を介する他の伝搬媒体で実施されたデータ信号によって、遠隔のコンピュータ(例えばサーバ)から要求側コンピュータ(例えばクライアント)に転送され得るコンピュータプログラムとしてダウンロードすることができる。
【0107】
前述の明細書では、特定の例示的な実施形態を説明した。しかしながら、特許請求の範囲に記載される本発明のより広い精神および範囲から逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。したがって、明細書および図面は、限定的ではなく例示的なものとみなされるべきである。
【図1】
【図2a】
【図2b】
【図2c】
【図2d】
【図2e】
【図3a】
【図3b】
【図4】
【図5a】
【図5b】
【図5c】
【図5d】
【図5e】
【図5f】
【図5g】
【図5h】
【図5i】
【図5j】
【図5k】
【図6】
【図7】
【図8】
【図9a】
【図9b】
【図10a】
【図10b】
【図10c】
【図10d】
【図10e】
【図10f】
【図10g】
【図10h】
【図10i】
【図10j】
【図11a】
【図11b】
【図11c】
【図11d】
【図11e】
【図11f】
【図11g】
【図11h】
【図11i】
【図11j】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【手続補正書】
【提出日】20190618
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
方法であって、
実行レーンのアレイと二次元シフトレジスタとを有する画像プロセッサ上で畳み込みニューラルネットワーク層を実行するステップを備え、前記二次元シフトレジスタは、ローカルなそれぞれのレジスタ空間を前記実行レーンに提供し、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップとを備え、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、方法。
【請求項2】
前記画像データの面および係数の次のアレイで上記のa)およびb)を繰り返すステップをさらに備え、前記係数値のアレイは、前記畳み込みニューラルネットワーク層のための第1の係数セットからの面であり、前記係数値の次のアレイは、前記畳み込みニューラルネットワーク層のための第2の係数セットからの面である、請求項1に記載の方法。
【請求項3】
プログラムであって、前記プログラムは、実行レーンのアレイとローカルなそれぞれのレジスタ空間を前記実行レーンに提供する二次元シフトレジスタとを有する画像プロセッサによって処理されると、方法を実行させ、前記方法は、
畳み込みニューラルネットワークを実行するステップを備え、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップと、を実行することによって行われ、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、プログラム
【請求項4】
前記方法は、前記画像データの面および係数の次のアレイで上記のa)およびb)を繰り返すステップをさらに備え、前記係数値のアレイは、前記畳み込みニューラルネットワーク層のための第1の係数セットからの面であり、前記係数値の次のアレイは、前記畳み込みニューラルネットワーク層のための第2の係数セットからの面である、請求項3に記載のプログラム
【請求項5】
前記方法は、同じ係数セットから生成された中間面を前記実行レーンにローカルに蓄積するステップをさらに備える、請求項4に記載のプログラム
【請求項6】
前記画像データは、前記画像データと1)前記第1の係数セットからの前記面との間で実行される二次元畳み込みと、前記画像データと2)前記第2の係数セットからの前記面との間で実行される二次元畳み込みとの間では、前記実行レーンにローカルに維持される、請求項3または4に記載のプログラム
【請求項7】
前記同時に乗算するステップは、前記二次元シフトレジスタ内の画像データに対して同じ係数値を同時に乗算するステップをさらに備える、請求項3〜6のいずれか1項に記載のプログラム
【請求項8】
前記値の整列を行うステップは、前記画像データに次の係数値を乗算する前に前記二次元シフトレジスタ内の画像データをシフトするステップを備える、請求項3〜7のいずれか1項に記載のプログラム
【請求項9】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、前記畳み込みニューラルネットワーク層の異なる係数セットを有する異なるステンシルプロセッサ上で同じ画像データを実行するように構成される、請求項3〜8のいずれか1項に記載のプログラム
【請求項10】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、異なるステンシルプロセッサ上の異なる画像データを用いて前記異なるステンシルプロセッサ上で前記畳み込みニューラルネットワークの同じ係数セットを実行するように構成される、請求項3〜8のいずれか1項に記載のプログラム
【請求項11】
前記異なる画像データは、画像データの三次元ブロックの異なるブロックの複数の面を備える、請求項10に記載のプログラム
【請求項12】
前記画像プロセッサは、前記畳み込みニューラルネットワーク層からの出力を、前記画像プロセッサによって算出される次の畳み込みニューラルネットワーク層のための入力として使用するように構成される、請求項3〜11のいずれか1項に記載のプログラム
【請求項13】
前記画像プロセッサは、前記画像データが前記畳み込みニューラルネットワーク層の処理と第2の畳み込みニューラルネットワーク層の処理との間では前記実行レーンにローカルのままである状態で、前記畳み込みニューラルネットワーク層および前記第2の畳み込みニューラルネットワーク層を多重化するように構成される、請求項3〜11のいずれか1項に記載のプログラム
【請求項14】
装置であって、
i)実行レーンのアレイと二次元シフトレジスタとを備える画像プロセッサを備え、前記二次元シフトレジスタは、それぞれのローカルなレジスタ空間を前記実行レーンに提供し、前記装置はさらに、
ii)格納されたプログラムコードを含む機械可読記憶媒体を備え、前記プログラムコードは、前記実行レーンのアレイによって実行されると、方法を実行させ、前記方法は、
畳み込みニューラルネットワークを実行するステップを備え、前記畳み込みニューラルネットワークを実行するステップは、
a)画像データの三次元ブロックの画像データの面を前記二次元シフトレジスタにロードするステップと、
b)係数値のアレイを用いて前記画像データの面の二次元畳み込みを実行するステップと、を実行することによって行われ、前記二次元畳み込みを実行するステップは、
前記実行レーン内でそれぞれのピクセルおよび係数値を同時に乗算して、部分積のアレイを生成するステップと、
前記実行レーン内で、前記部分積と、前記画像データ内の様々なステンシルのために前記二次元レジスタ内に維持されている部分積のそれぞれの累積とを同時に合計するステップと、
前記二次元シフトレジスタアレイ内で内容をシフトすることによって前記実行レーン内で前記二次元畳み込みのための値の整列を行うステップと、をシーケンシャルに実行することによって行われる、装置。
【請求項15】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、前記畳み込みニューラルネットワーク層の異なる係数セットを有する異なるステンシルプロセッサ上で同じ画像データを実行するように構成される、請求項14に記載の装置。
【請求項16】
前記画像プロセッサは、各々がそれぞれの実行レーンアレイと二次元シフトレジスタとを有する複数のステンシルプロセッサを備え、前記画像プロセッサは、異なるステンシルプロセッサ上の異なる画像データを用いて前記異なるステンシルプロセッサ上で前記畳み込みニューラルネットワークの同じ係数セットを実行するように構成される、請求項14に記載の装置。
【請求項17】
前記異なる画像データは、画像データの三次元ブロックの異なるブロックの複数の面を備える、請求項16に記載の装置。
【請求項18】
前記画像プロセッサは、前記畳み込みニューラルネットワーク層からの出力を、前記画像プロセッサによって算出される次の畳み込みニューラルネットワーク層のための入力として使用するように構成される、請求項14〜17のいずれか1項に記載の装置。
【請求項19】
前記画像プロセッサは、前記画像データが前記畳み込みニューラルネットワーク層の処理と第2の畳み込みニューラルネットワーク層の処理との間では前記実行レーンにローカルのままである状態で、前記畳み込みニューラルネットワーク層および前記第2の畳み込みニューラルネットワーク層を多重化するように構成される、請求項14〜17のいずれか1項に記載の装置。
【請求項20】
前記画像プロセッサおよび機械可読記憶媒体は、コンピューティングシステムの一部である、請求項14〜19のいずれか1項に記載の装置。
【国際調査報告】