(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】2021501384
(43)【公表日】20210114
(54)【発明の名称】次元削減により計算時間を減少させるための方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20201211BHJP
【FI】
   !G06N20/00
【審査請求】有
【予備審査請求】未請求
【全頁数】20
(21)【出願番号】2020500625
(86)(22)【出願日】20170706
(85)【翻訳文提出日】20200221
(86)【国際出願番号】US2017040988
(87)【国際公開番号】WO2019009912
(87)【国際公開日】20190110
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】519391664
【氏名又は名称】リキッド バイオサイエンシズ,インコーポレイテッド
【住所又は居所】アメリカ合衆国,カリフォルニア州 92656,アリソ ヴィエホ,スイート 230,6ビー リバティ
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【弁理士】
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】リリー,パトリック
【住所又は居所】アメリカ合衆国,カリフォルニア州 92656,アリソ ヴィエホ,ビー792,26895 アリソ クリーク ロード
(72)【発明者】
【氏名】コルブス,マイケル ジョン
【住所又は居所】アメリカ合衆国,カリフォルニア州 91784,アップランド,857 イー.25番 ストリート
(57)【要約】
高次元データセットの次元削減は、計算時間を減少させることができ、次元削減のためのプロセスは、より低次元のデータセットでも有用であり得る。次元削減方法は、機械学習プログラミング技術における計算要件を劇的に減少し得ることが発見されている。この開発により、これまで有用とならないほど多大な計算時間を必要としていた複雑な問題を解決するのに用いられるように計算モデリングの能力が解放される。
【選択図】図2
【特許請求の範囲】
【請求項1】
データセットを前処理することにより予測変数及び結果に関係するモデルを改良するのに必要とされる計算時間を減少させる方法であって、
エントリセットを備える第1のデータセットを記憶するステップであって、前記エントリセットの各エントリは、(1)少なくとも1つの特徴量及び(2)結果を備えるステップと、
前記第1のデータセットから第1及び第2のエントリサブセットを作成するステップと、
前記第1及び第2のエントリサブセットに対応する第1及び第2の説明測度を決定するステップであって、
前記第1の説明測度は、前記第1のエントリサブセットの第1の結果タイプに対応する少なくとも1つの第1のエントリサブセット特徴量に基づいており、
前記第2の説明測度は、前記第2のエントリサブセットの第2の結果タイプに対応する少なくとも1つの第2のエントリサブセット特徴量に基づいているステップと、
前記少なくとも1つの特徴量に関する一貫性測度を決定するステップであって、前記一貫性測度は、前記少なくとも第1及び第2の説明測度の変動性の測度に基づいているステップと、
前記少なくとも1つの特徴量に関する一貫性測度を閾値と比較するステップと、
前記少なくとも1つの特徴量に関する一貫性測度が閾値を下回る場合に、前記少なくとも1つの特徴量を前記第1のデータセットから却下するステップと、
を含む方法。
【請求項2】
前記第1のデータセットにおける各結果に関する値を定義するステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記第1の結果タイプと前記第2の結果タイプが同じである、請求項1に記載の方法。
【請求項4】
前記第1のエントリサブセットが、前記第1のデータセットからのいくつかのエントリを備え、前記第1のエントリサブセット内の結果の第1の割合が、前記第1のデータセット内の結果の第2の割合と実質的に同じである、請求項1に記載の方法。
【請求項5】
前記第1のデータセットから前記第1のエントリサブセットを作成するステップが、前記第1のデータセットからエントリをランダムに選択することをさらに含む、請求項1に記載の方法。
【請求項6】
前記第1及び第2の説明測度を決定するステップが、前記少なくとも1つの特徴量に関係する平均を決定することをさらに含み、前記少なくとも1つの特徴量が、前記第1の結果タイプに対応する、請求項1に記載の方法。
【請求項7】
前記平均が、trimeanとして決定される、請求項6に記載の方法。
【請求項8】
前記平均が、幾何平均として決定される、請求項6に記載の方法。
【請求項9】
前記平均が、算術平均として決定される、請求項6に記載の方法。
【請求項10】
データセットを前処理することにより予測変数及び結果に関係するモデルを改良するのに必要とされる計算時間を減少させる方法であって、
エントリセットを備える第1のデータセットを記憶するステップであって、前記エントリセットの各エントリは、(1)少なくとも1つの特徴量及び(2)結果を備えるステップと、
前記第1のデータセットからの第1及び第2のエントリサブセットを定義するステップと、
前記第1のエントリサブセットからの第1のエントリ結果サブセットを定義するステップであって、前記第1のエントリ結果サブセットの各結果は実質的に同じであるステップと、
前記第1のエントリサブセットからの第2のエントリ結果サブセットを定義するステップであって、前記第2のエントリ結果サブセットの各結果は実質的に同じであるステップと、
前記第2のエントリサブセットからの第3のエントリ結果サブセットを定義するステップであって、前記第3のエントリ結果サブセットの各結果は実質的に同じであるステップと、
前記第2のエントリサブセットからの第4のエントリ結果サブセットを定義するステップであって、前記第4のエントリ結果サブセットの各結果は実質的に同じであるステップと、
前記第1のエントリ結果サブセットに対応する第1の結果測度を決定するステップであって、前記第1の結果測度は、第1のエントリ結果サブセット特徴量タイプを表す少なくとも1つの第1のエントリ結果サブセット特徴量に基づいているステップと、
前記第2のエントリ結果サブセットに対応する第2の結果測度を決定するステップであって、前記第2の結果測度は、少なくとも1つの第2のエントリ結果サブセット特徴量に基づいているステップと、
前記第3のエントリ結果サブセットに対応する第3の結果測度を決定するステップであって、前記第3の結果測度は、少なくとも1つの第3のエントリ結果サブセット特徴量に基づいているステップと、
前記第4のエントリ結果サブセットに対応する第4の結果測度を決定するステップであって、前記第4の結果測度は、少なくとも1つの第4のエントリ結果サブセット特徴量に基づいているステップと、
前記第1の結果測度及び前記第2の結果測度に基づく第1の最終結果測度を決定するステップと、
前記第3の結果測度及び前記第4の結果測度に基づく第2の最終結果測度を決定するステップと、
特徴量タイプに関連する一貫性測度を決定するステップであって、前記一貫性測度は、前記第1及び第2の最終結果測度の変動性の測度に基づいているステップと、
前記特徴量タイプに関連する一貫性測度を閾値と比較し、前記一貫性測度が前記閾値よりも小さい場合に、前記特徴量タイプを前記第1のデータセットから却下するステップと、
を含む方法。
【請求項11】
前記第1のエントリ結果サブセットと、前記第2のエントリ結果サブセットと、前記第3のエントリ結果サブセットと、前記第4のエントリ結果サブセットが異なる、請求項10に記載の方法。
【請求項12】
前記少なくとも1つの第1のエントリ結果サブセット特徴量が、前記第1のエントリ結果サブセットにおける各特徴量の平均を含む、請求項10に記載の方法。
【請求項13】
少なくとも前記第1の最終結果測度と前記第2の最終結果測度を用いて第1の平均を決定するステップをさらに含む、請求項10に記載の方法。
【請求項14】
少なくとも(1)前記第1の平均及び(2)前記特徴量タイプに関連する一貫性測度に基づいて最終メトリックを決定するステップをさらに含む、請求項13に記載の方法。
【請求項15】
少なくとも1つのエントリの少なくとも1つの結果が、第2のデータセットの量子化から決定される、請求項10に記載の方法。
【請求項16】
データセットを前処理することにより予測変数及び結果に関係するモデルを改良するのに必要とされる計算時間を減少させるための装置であって、
(1)少なくとも4つのロー及び少なくとも2つのカラムを備え、第1のカラムが特徴量タイプに対応し、第2のカラムが結果に対応する、データセット、及び(2)いくつかの量子、を受信するように構成され、前記いくつかの量子に従って結果の次元を削減するべく結果に対応するカラムを量子化する、結果量子化モジュールと、
(1)前記データセット、(2)いくつかのサブセット、(3)選択方法を受信し、それにより、(1)前記いくつかのサブセット及び(2)前記選択方法に従ってサブセットを作成するように構成された、サブセット作成モジュールと、
前記サブセットを受信し、それにより、受信した前記サブセットのそれぞれに関する少なくとも2つのサブサブセットを作成するように構成され、前記各サブサブセットの第2のカラムが同じ値を有する、サブサブセット作成モジュールと、
(1)前記少なくとも2つのサブサブセット及び(2)代表メトリック決定方法を受信し、それにより、前記代表メトリック決定方法に基づいて前記少なくとも2つのサブサブセットの前記第1のカラムのそれぞれに関する代表メトリックを決定するように構成された、代表メトリックモジュールと、
指定されたサブセットに対応する前記少なくとも2つのサブサブセットの第1のカラムのそれぞれに関する前記代表メトリックを組み合わせて、組み合わせモジュール結果を出力するように構成され、第1のサブセットに係る出力は第1の組み合わせモジュール結果であり、第2のサブセットに係る出力は第2の組み合わせモジュール結果である、組み合わせモジュールと、
(1)第1の指定されたサブセットに対応する前記第1の組み合わせモジュール結果及び(2)第2の指定されたサブセットに対応する前記第2の組み合わせモジュール結果の変動性の測度を決定するように構成された、一貫性メトリックモジュールと、
前記第1の組み合わせモジュール結果及び前記第2の組み合わせモジュール結果に基づいてモードセレクタ出力を出力するように構成されたモードセレクタと、前記モードセレクタ出力、前記第1の組み合わせモジュール結果、及び前記第2の組み合わせモジュール結果に基づいて特徴量パワーモジュール結果を出力するように構成されたコンバイナユニットとを備える、特徴量パワーモジュールと、
(1)前記特徴量パワーモジュール結果、(2)前記変動性の測度、及び(3)前記第1の組み合わせモジュール結果のうちの少なくとも1つに従って前記データセットの次元を削減するように構成された、選択モジュールと、
を備える装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の技術分野は、次元削減により計算時間を減少させるための方法である。
【背景技術】
【0002】
背景技術の説明は、本発明を理解するのに有用であり得る情報を含む。本出願で提供される情報のいずれも、現在特許請求される発明の又は関連する先行技術であることの自認ではない、又は具体的に又は暗黙的に引用されるどの刊行物も、先行技術であることの自認ではない。
【0003】
データセットの利用可能性及びサイズが増加するのに伴い、「次元の呪い」が大規模データの演算を妨げる。
【0004】
数百又はさらには数千の次元を有する高次元空間を解析するときに、三次元又は二次元設定などの低次元設定では起こらない計算問題が生じる。これらの空間に伴う問題は、或る問題への数値解を計算する時間が、有用とならないほど多大になり得ることである。高次元データソリューションでの問題の一例は、ボードゲーム「Go」に最適な戦略を考案することである。Goのソリューションは、想像するのは容易だが計算は不可能であり、各動きに関して、プレイヤにとって最良の可能な動きは、そのプレイヤの勝利につながる可能性が最も高い可能な将来の動きの組をもたらすものである。しかし、可能な将来の動きの組は、その確率を計算するにはあまりにも多く、空間全体を計算するのに宇宙の年齢よりも時間がかかるであろう。したがって、「Go」をプレイするように設計された人工知能ソリューションは、解に到達するために問題の次元を削減しなければならない。別の例は、疾病リスクに関する遺伝子をスクリーニングすることである。悪い形質が発現するリスクに影響し得る可能性ある遺伝子の数、及びリスクに影響し得る遺伝子の種々の組み合わせは、各可能性ある遺伝子及び遺伝子の組み合わせを効率よく計算するには多すぎる。結果に影響を及ぼす多数の可能性ある変数に伴う他の問題では、モデルの構築に同様の高次元性の問題が存在する。数百又は数千の変数の組からの1つ以上の変数を含む可能性あるモデルの数は、効率よく検索するにはひどく多い。したがって、変数の数の削減は、特定の問題を検索するための可能性あるモデルの空間を削減する。
【0005】
高次元性の問題は、数値解析、サンプリング、組み合わせ論、機械学習、データマイニング、及びデータベースにおいて生じる。データの編成及び検索は、同様の特性をもつオブジェクトのグループの検出にしばしば依拠するが、高次元データでは、すべてのオブジェクトは、様々に異なって現れる場合があり、これは効率的なデータ編成及び検索を妨げることがある。
【0006】
高次元のデータセットで生じる問題を低減する1つの方法は、最も計算量の多いプロセスを行う前に、関連する次元の数を削減することである。しかしながら、これはいくつかの異なる問題を生じる。第1に、次元を削減する方法は、それ自体が顕著に計算的に「よりチープ」でなければならない、すなわち、一定の処理能力を仮定して、後続のどの計算量の多いプロセスよりも処理時間が短くなければならない。第2に、次元を削減する方法はまた、潜在的に十分に関連性のある特徴量が次元削減で一緒に失われないように十分な正確さを提供しなければならない。
【0007】
コンピュータ技術は進歩し続けているが、大きいデータセットを用いて複雑な問題を解決するのに複雑な計算技術を利用できるように高次元計算プログラミングの計算要件を低減する必要性が依然として存在している。
【0008】
機械学習では、「特徴量選択」とは、問題に対する最も高い予測値を与えるオリジナルの変数又は特徴量のサブセットを見つけ出すことによりデータセットの次元の数を削減するプロセスを指す。従来の特徴量選択プロセスは、予測モデルを用いて特徴量サブセットをスコア付けするラッパー法、計算が速い「プロキシ測度」を用いて特徴量サブセットをスコア付けするフィルタ法、及びモデル構築プロセスの一部として用いられる技術の組を指す組み込み法を含む。これらの背景技術の特徴量選択法では、どれも比較的計算コストが高く、多くのタイプのモデルで上手く機能しない。
【0009】
計算時間を減少させ、且つ、次元削減されたデータセットに適用される多くのタイプのモデルで上手く機能する様態で、次元削減を行うことができることはまだ認識されていない。次元削減プロセスが低次元空間でも有用であり得ることもまだ認識されていない。
【発明の概要】
【発明が解決しようとする課題】
【0010】
したがって、次元削減により計算時間を減少させるための方法が、当該術分野では依然として必要とされている。
【課題を解決するための手段】
【0011】
本発明は、次元を削減する方法により高次元のデータセットをモデル化するのに必要とされる計算時間が減少され得る、装置、システム、及び方法を提供する。
【0012】
本発明の主題の1つの態様において、次元削減により計算時間を減少させるための方法が意図される。方法は、エントリセットを備える第1のデータセットを記憶するステップであって、エントリセットの各エントリは、(1)少なくとも1つの基準及び(2)結果を備えるステップと;第1のデータセットから第1及び第2のエントリサブセットを作成するステップと;第1及び第2のエントリサブセットに対応する第1及び第2の説明測度を決定するステップであって、第1の説明測度は、第1のエントリサブセットの第1の結果タイプに対応する少なくとも1つの第1のエントリサブセット基準に基づいており、第2の説明測度は、第2のエントリサブセットの第2の結果タイプに対応する少なくとも1つの第2のエントリサブセット基準に基づいているステップと;少なくとも1つの基準に関する一貫性測度を決定するステップであって、一貫性測度は、少なくとも第1及び第2の説明測度の変動性の測度に基づいているステップと;少なくとも1つの基準に関する一貫性測度を閾値と比較するステップと;少なくとも1つの基準に関する一貫性測度が閾値を下回る場合に、少なくとも1つの基準を第1のデータセットから却下するステップとを含む。
【0013】
本発明の別の態様において、データセットを前処理することにより予測変数及び結果に関係するモデルを改良するのに必要とされる計算時間を減少させる方法は、エントリセットを備える第1のデータセットを記憶するステップであって、エントリセットの各エントリは、(1)少なくとも1つの特徴量及び(2)結果を備えるステップと;第1のデータセットからの第1及び第2のエントリサブセットを定義するステップと;第1のエントリサブセットからの第1のエントリ結果サブセットを定義するステップであって、第1のエントリ結果サブセットの各結果は実質的に同じであるステップと;第1のエントリサブセットからの第2のエントリ結果サブセットを定義するステップであって、第2のエントリ結果サブセットの各結果は実質的に同じであるステップと;第2のエントリサブセットからの第3のエントリ結果サブセットを定義するステップであって、第3のエントリ結果サブセットの各結果は実質的に同じであるステップと;第2のエントリサブセットからの第4のエントリ結果サブセットを定義するステップであって、第4のエントリ結果サブセットの各結果は実質的に同じであるステップと;第1のエントリ結果サブセットに対応する第1の結果測度を決定するステップであって、第1の結果測度は、第1のエントリ結果サブセット特徴量タイプを表す少なくとも1つの第1のエントリ結果サブセット特徴量に基づいているステップと;第2のエントリ結果サブセットに対応する第2の結果測度を決定するステップであって、第2の結果測度は、少なくとも1つの第2のエントリ結果サブセット特徴量に基づいているステップと;第3のエントリ結果サブセットに対応する第3の結果測度を決定するステップであって、第3の結果測度は、少なくとも1つの第3のエントリ結果サブセット特徴量に基づいているステップと;第4のエントリ結果サブセットに対応する第4の結果測度を決定するステップであって、第4の結果測度は、少なくとも1つの第4のエントリ結果サブセット特徴量に基づいているステップと;第1の結果測度及び第2の結果測度に基づく第1の最終結果測度を決定するステップと;第3の結果測度及び第4の結果測度に基づく第2の最終結果測度を決定するステップと;特徴量タイプに関連する一貫性測度を決定するステップであって、一貫性測度は、第1及び第2の最終結果測度の変動性の測度に基づいているステップと;特徴量タイプに関連する一貫性測度を閾値と比較し、一貫性測度が閾値よりも小さい場合に、特徴量タイプを第1のデータセットから却下するステップと、を含む。
【0014】
本発明のまた別の態様において、データセットを前処理することにより予測変数及び結果に関係するモデルを改良するのに必要とされる計算時間を減少させるための装置であって、(1)少なくとも4つのロー及び少なくとも2つのカラムを備え、第1のカラムが特徴量タイプに対応し、第2のカラムが結果に対応する、データセット、及び(2)いくつかの量子、を受信するように構成され、いくつかの量子に従って結果の次元を削減するべく結果に対応するカラムを量子化する、結果量子化モジュールと;(1)データセット、(2)いくつかのサブセット、(3)選択方法を受信し、それにより、(1)いくつかのサブセット及び(2)選択方法に従ってサブセットを作成するように構成された、サブセット作成モジュールと;サブセットを受信し、それにより、受信したサブセットのそれぞれに関する少なくとも2つのサブサブセットを作成するように構成され、各サブサブセットの第2のカラムが同じ値を有する、サブサブセット作成モジュールと;(1)少なくとも2つのサブサブセット及び(2)代表メトリック決定方法を受信し、それにより、代表メトリック決定方法に基づいて少なくとも2つのサブサブセットの第1のカラムのそれぞれに関する代表メトリックを決定するように構成された、代表メトリックモジュールと;指定されたサブセットに対応する少なくとも2つのサブサブセットの第1のカラムのそれぞれに関する代表メトリックを組み合わせて、組み合わせモジュール結果を出力するように構成され、第1のサブセットに係る出力は第1の組み合わせモジュール結果であり、第2のサブセットに係る出力は第2の組み合わせモジュール結果である、組み合わせモジュールと;(1)第1の指定されたサブセットに対応する第1の組み合わせモジュール結果及び(2)第2の指定されたサブセットに対応する第2の組み合わせモジュール結果の変動性の測度を決定するように構成された、一貫性メトリックモジュールと;第1の組み合わせモジュール結果及び第2の組み合わせモジュール結果に基づいてモードセレクタ出力を出力するように構成されたモードセレクタと、モードセレクタ出力、第1の組み合わせモジュール結果、及び第2の組み合わせモジュール結果に基づいて特徴量パワーモジュール結果を出力するように構成されたコンバイナユニットと、を備える、特徴量パワーモジュールと;(1)特徴量パワーモジュール結果、(2)変動性の測度、及び(3)第1の組み合わせモジュール結果のうちの少なくとも1つに従ってデータセットの次元を削減するように構成された、選択モジュールと;を備える装置が提供される。
【0015】
開示される主題は、或るタスク(例えば、遺伝的プログラミング)を行うのに必要とされる計算サイクルを劇的に減少させることによりコンピュータの改善した動作を含む有利な技術的効果をもたらすことを理解されたい。本発明の主題なしには、遺伝的プログラミングは、主に、時には数か月及び数年の計算時間を必要とするその法外な計算要件のために、多くの状況において支持できるソリューションではない。
【0016】
本発明の主題の種々の目的、特徴、態様、及び利点が、好ましい実施形態の以下の詳細な説明と、同様の数字が同様の構成要素を表す添付図から、より明らかとなるであろう。
【図面の簡単な説明】
【0017】
【図1】例示的なデータセットを示す図である。
【図2】本発明に係る例示的なプロセスを示す図である。
【図3】結果量子化モジュールを示す図である。
【図4】サブセット作成モジュールを示す図である。
【図5】サブサブセット作成モジュールを示す図である。
【図6】代表メトリックモジュールを示す図である。
【図7】例示的なサブサブセット及び関連する代表メトリックを示す図である。
【図8】組み合わせモジュールを示す図である。
【図9】特徴量メトリックのアレイを示す図である。
【図10】一貫性メトリックモジュールを示す図である。
【図11】特徴量パワーモジュールを示す図である。
【図12】選択モジュールを示す図である。
【発明を実施するための形態】
【0018】
定義
以下の説明は、本発明の主題の例示的な実施形態を提供する。各実施形態は、本発明の要素の単一の組み合わせを表すが、本発明の主題は、開示される要素のすべての可能な組み合わせを含むと考えられる。したがって、一実施形態が要素A、B、及びCを備え、第2の実施形態が要素B及びDを備える場合、本発明の主題は、明示的に開示されない場合であっても、A、B、C、又はDの他の残りの組み合わせを含むとも考えられる。
【0019】
本出願での説明において及びそれに続く請求項の全体を通して用いられる場合の「1つの(a、an)」、及び「その(the)」の意味は、文脈上そうでないとする明確な指示がない限り、複数形の言及を含む。また、本出願の説明において用いられる場合の「〜における、〜での(in)」の意味は、文脈上他の意味に明白に規定される場合を除き、「〜における、〜での(in)」及び「〜における、〜上での(on)」を含む。
【0020】
また、文脈上そうでないとする指示がない限り、本出願において用いられる場合の「〜に結合される」という用語は、直接結合(互いに結合される2つの要素が互いに接触している)と間接結合(2つの要素間に少なくとも1つのさらなる要素が存在する)との両方を含むことを意図している。したがって、「〜に結合される」及び「〜と結合される」という用語は、同意語として用いられる。
【0021】
いくつかの実施形態において、本発明の特定の実施形態を説明及び特許請求するのに用いられる、濃度、反応条件などの、成分、特性の量を表す数字は、すべての事例において「約」という用語によって修飾されると理解される。したがって、いくつかの実施形態において、本明細書及び付属の請求項に記載の数値パラメータは、特定の実施形態によって得ようとする所望の特性に応じて変化し得る近似値である。いくつかの実施形態において、数値パラメータは、報告された有効数字の数を考慮して、通常の丸め技術を適用することによって解釈されるべきである。本発明のいくつかの実施形態の広い範囲を記載する数値範囲及びパラメータは近似値であるにもかかわらず、具体例に記載の数値は、可能な限り正確に報告されている。さらに、文脈上それに反する規定のない限り、本出願に記載のすべての範囲は、それらの端点を含むと解釈されるべきであり、オープンエンドの範囲は、商業的に実用的な値のみを含むと解釈されるべきである。同様に、値のすべての列挙は、文脈上それに反する規定のない限り中間値を含むものとして考えられるべきである。
【0022】
コンピュータに向けられたどの言葉も、個々に又は集合的に動作するサーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、又は他のタイプのコンピューティングデバイスを含む、コンピューティングデバイスの任意の適切な組み合わせを含むように読まれるべきであることに留意されたい。コンピューティングデバイスは、有形の一時的でないコンピュータ可読記憶媒体(例えば、ハードドライブ、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)に記憶されたソフトウェア命令を実行するように構成されたプロセッサを備えることを理解されたい。ソフトウェア命令は、好ましくは、コンピューティングデバイスを、開示される装置に関して後述する役割、責任、又は他の機能を提供するように構成する。特に好ましい実施形態では、種々のサーバ、システム、データベース、又はインターフェースは、ことによるとHTTP、HTTPS、AES、公開鍵−秘密鍵交換、ウェブサービスAPI、公知の金融トランザクションプロトコル、又は他の電子情報交換方法に基づいて、標準化されたプロトコル又はアルゴリズムを用いてデータを交換する。データ交換は、好ましくは、パケット交換網、インターネット、LAN、WAN、VPN、又は他のタイプのパケット交換網上で行われる。以下の説明は、本発明を理解するのに有用であり得る情報を含む。本出願で提供される情報のいずれも、現在特許請求される発明の又は関連する先行技術であることの自認ではない、又は具体的に又は暗黙的に参照されるどの刊行物も、先行技術であることの自認ではない。
【0023】
本出願で用いられる場合の「セット」又は「サブセット」などの用語は、1つ以上のアイテムを含むように解釈されることを意図している。「セット」が、他に記載のない限り1つよりも多くのアイテムを含むことは必須ではない。或る状況では、「セット」は、空であってアイテムを含んでいない場合もある。
【0024】
本発明の主題の目的は、対象データセットにおける予測変数と結果の関係性を記述するモデルを作成するのに用いられる低性能の(例えば、不必要な又は必要とされない)モデルコンポーネントを識別し、排除することである。可能性あるモデルコンポーネントの数のプルーニングは、高性能のモデルに集束させるのに必要とされる計算時間を減少させることにより計算効率を向上させる。
【0025】
本発明の多くの実施形態は、本発明を例示するのに役立つ。
【0026】
一実施形態において、本発明は、ソフトウェア命令の組を含む。
【0027】
別の実施形態において、本発明は、本明細書で説明される本発明の文脈において、汎用コンピュータの機能を向上させる特殊なハードウェアを含む。
【0028】
さらに別の実施形態において、本発明は、汎用コンピュータの機能を向上させる特殊なハードウェアを含む。
【0029】
データセット
本発明の一実施形態において、データセット101で動作するモジュールが提供される。データセット101の例示的な態様が図1で説明される。図1を参照すると、例示的な態様は、結果102と、結果102に関連する特徴量103を含む。結果102は、コンピュータによりアクセス可能なメモリ内のその場所により又は別のインデックス作成法によりインデックスを付けられてよく、これにより、結果アレイ102aを形成する。同様に、特徴量102は、メモリ内のその場所により又は別のインデックス作成法によりインデックスを付けられてよく、特徴量アレイ103aを形成する。図1に示すように、データセット101は、データセット101の特定のカラムを識別するためにインデックス作成法により結果アレイ102aを特徴量アレイ103aから区別でき得るような特徴量及び結果のアレイを備えてよい。(図1では、例えば、インデックス「n+1」は、結果カラムに相当することもできる。)さらに、データセットの各ローは、「i,j」などのインデックスアドレスが、次式:k=j[ローの数]+iにより単一のパラメータインデックスkに相当することになるように、別の方法でインデックスを付けられてよい。サンプル104は、少なくとも1つの特徴量と少なくとも1つの結果を備える。データセット101内で、同じカラムインデックスによりインデックスを付けられた特徴量は、同じカラムインデックス及び異なるローインデックスの特徴量と共通のタイプとなり、これにより、特徴量タイプ105を形成する。もちろん、共通のタイプの特徴量をグループ化するための異なるインデックス作成スキームが可能である。
【0030】
プロセス
図2は、本発明を用いる例示的なプロセスを示す。データセット101が、データセットを処理する、結果量子化モジュール201に入力される。いくつかの実施形態において、結果二値化モジュール202が、結果量子化モジュール201による処理の後にデータセット101をさらに処理してよい。図2に示すように、結果量子化モジュール201と結果二値化モジュール202との両方の後に、サブセット作成モジュール203が呼び出される。いくつかの実施形態において、サブセット作成モジュールは、結果量子化モジュール201又は結果二値化モジュール202の前又は後のいずれかに呼び出されてよい。次いで、サブセット作成モジュール203の後に、サブサブセット作成モジュール204が呼び出される。処理は、さらに詳しく後述する、代表メトリックモジュール205、組み合わせモジュール206、一貫性メトリックモジュール207、特徴量パワーモジュール208、及び選択モジュール209を呼び出す。
【0031】
結果量子化モジュール
図3を参照して同じく説明されるのは、結果量子化モジュール201である。結果量子化モジュール201は、結果アレイ102aと量子の数301とを含む入力を取り込む。図3に示すように、各得られる結果アレイ102aが、量子化器302に入力される。量子化器302は、結果303を受信するときに、結果303が量子の範囲を定義する第1の値と第2の値との間にあるかどうかを判定する。結果303が量子の範囲を定義する第1の値と第2の値との間にある場合、入力結果に対応する量子化器302の出力は前記量子となり、これにより、結果に関する値を定義する。或る入力に関して、量子化器302は、さらに最適化されてよい。例えば、得られる結果アレイ102a中の結果が符号なし整数を含み、且つ量子の数301が2のべき乗である場合、量子化器302は、量子化器302の結果的に生じる範囲の出力が量子の数301に等しくなるように、結果303をビットシフトして最下位のビットを排除することにより動作してよい。したがって、量子化器302は、量子化された結果アレイ304を出力する。
【0032】
量子を定義する値の範囲は、結果アレイ102aにおける値の範囲及び量子の数から事前に定義又は決定されてよい。一実施形態では、例えば、量子化器302は、一様分布ランダム化関数の出力として合理的に近似され得るように結果アレイ102aを変換するべく適切なマッピング関数を決定することになる。結果アレイ102aがそういうものとして既に良く近似されている場合、変換は恒等であろう。変換された結果アレイ102aが一様分布として合理的に近似され得る一実施形態では、量子を定義する値の範囲は、結果アレイ102aの全範囲間で一様分布となるように決定されることになる。
【0033】
結果二値化モジュール
同じく説明されるのは、いくつかの実施形態において存在する、結果二値化モジュール202である。結果二値化モジュール202は、入力として、結果アレイ102a又は量子化された結果アレイ304のいずれかを受信する。結果二値化モジュール202はまた、入力として、結果アレイ102aにおける量子の中の1つの量子を選択するべくパラメータを受信する。次いで、各得られる結果アレイ102a又は量子化された結果アレイ304に関する可能な値が、二値化された結果を生成するべく量子化により2つの値に削減される。
【0034】
サブセット作成モジュール
同じく説明されるのは、図4に示されるサブセット作成モジュール203である。サブセット作成モジュール203は、入力として、データセット101、サブセットの数401、及び選択方法402を受信する。サブセットの数401は、通常は当業者によって決定されるが、いくつかの実施形態ではデータセット101に基づいて決定され得る。サブセット作成モジュール203は、各サンプルを、サブセット403のうちの1つと関連付ける。関連付けは、例えば、メモリロケーションのリストを作成することにより達成されてよく、この場合、各メモリロケーションは、データセット101におけるサンプルを指す。次いで、例えば、リストによりサブセット403aが定義され得る。各サンプルのすべてのデータをメモリ内の新しい場所にコピーする代わりにメモリロケーションのリストを作成することにより、本明細書で説明されるプロセスを行うのに必要とされるメモリが顕著に減少し、ゆえに、本明細書で説明されるプロセスは、顕著により多数の利用可能なデバイス上で行うことが可能である。
【0035】
選択方法402は、例えば、置換なしでランダムであってよく、置換ありでランダムであってよく、又は特別に定義される方法であってよい。サブセット403は、例えば、サブセットの数401及び各サブセットをポピュレートするサンプルの数だけ繰り返すことにより作成される。選択方法が置換なしでランダムのとき、選択方法402は、サンプルがサブセット403の1つよりも多いサブセットに現れることを禁止する。一実施形態では、選択方法402は、サブセット403aにおける結果の分布又は割合がデータセットにおける結果の分布又は割合を確実に近似するようにする。したがって、得られる第1のサブセット、例えばサブセット403aの割合と、得られる第2のサブセットの割合は、このような実施形態では同じである。
【0036】
一実施形態では、選択方法402は、繰返しの例示として説明され得る。例えば、第1の繰返しにおいて、ランダムに選択される1つのサンプルは、サブセット403aと関連付けられる。別の実施形態では、例えば、第1の繰返しにおいて、サブセット403aは、サブセット403からランダムに選択され、第1のサンプルと関連付けられてよい。選択方法402が置換なしでランダムの場合、1つのサンプルが1つよりも多いサブセットにおいて現れてよい。
【0037】
前述のように、選択方法402は、いくつかの実施形態において、特別に定義される方法であり得る。特別に定義される方法は、サブセット作成モジュール203に、サブセットをサンプルと関連付けるための機能を提供し、これはサブセット作成モジュール203によって呼び出されてよい。
【0038】
サブサブセット作成モジュール
本発明の別の態様は、図5に示されるサブサブセット作成モジュール204である。一実施形態では、サブサブセット作成モジュール204は、入力としてサブセット403を受信する。サブサブセット作成モジュール204は、サブセットからサブサブセット501を作成する。サブサブセット501aは、例示として、サブセット403aにおけるサンプル104の二値化された結果を第1の値と比較することにより作成される。比較結果が等しい場合、サブセット403aにおけるサンプル104が、サブセット403aに対応するサブサブセット501aに追加される。比較結果が等しくない場合、サブセット403aにおけるサンプル104が、サブセット403aに対応するサブサブセット501bに追加される。サブサブセット作成モジュール204へのサブセットの入力は、他のサブセットに対応するサブサブセットとは別個の2つのサブサブセットを生じることになる。サブサブセット作成モジュール204は、少なくとも1つのサブセットで動作する。
【0039】
サブサブセット作成モジュールは、それ自体の機能として、又はいくつかの実施形態では、サンプルがサブセットでアクセスされるインデックス作成法として実装されてよい。必要以上の実験なしに、本発明の特色を変えることなく、多くの実装が可能であることが当業者には分かるであろう。
【0040】
代表メトリックモジュール
図6に示すように、サブサブセット作成モジュール204により出力されたサブサブセット501は、代表メトリックモジュール205に入力される。代表メトリックモジュール205は、サブサブセットにおける少なくとも1つの特徴量タイプに関する少なくとも1つの代表メトリック601aを含む、代表メトリックアレイ601を決定する。例えば、代表メトリック601aは、代表メトリック決定器を用いることによりサブサブセット501a内の特徴量タイプ105に対応する各特徴量のtrimeanとして決定されてよく、代表メトリック決定器は、trimean又は他の母平均の推定量を決定する。別の例として、代表メトリックアレイ601は、サブサブセット内の所与の特徴量タイプの特徴量の中央値、算術平均値、又は幾何平均値として決定される代表メトリックを備えてよい。より一般的には、代表メトリックアレイ601は、所与のサブサブセットにおける特徴量タイプに関するサンプルが与えられた母平均の推定量である代表メトリックを備えてよい。随意的に、いくつかの実施形態において、代表メトリックモジュール205は、代表メトリック決定方法の入力を受信してよく、これは、母平均の推定量を決定する任意の方法を代表メトリックモジュールに提供し得る。
【0041】
したがって、代表メトリックモジュール205は、代表メトリックアレイ601を決定し、これは、代表メトリックモジュールへの各サブサブセットの入力に関するサブサブセットの各特徴量タイプに関する代表メトリックを含み得る。代表メトリックと所与の特徴量タイプの特徴量との関連付けが図7に示される。
【0042】
組み合わせモジュール
図8に示すように、代表メトリックアレイ601は、組み合わせモジュール206に入力される。組み合わせモジュール206は、サブセットごとの特徴量タイプごとの単一の特徴量メトリックを作成するべく、所与のサブセットに関する2つの代表メトリック、すなわち、所与のサブセットの第1のサブサブセットに関する第1の代表メトリックと、所与のサブセットの第2のサブサブセットに関する第2の代表メトリックとを、例えばそれらの比率をとることにより組み合わせる。組み合わせモジュールの出力である特徴量メトリックアレイ901が図9に示される。図9に示すように、各特徴量メトリック、例えば、特徴量メトリック901aは、所与のサブセットの所与の特徴量タイプの特徴量と関連付けられ、これにより、特徴量メトリックアレイ901を形成する。したがって、第1の特徴量メトリック(第1のサブセットに対応する)は、少なくとも1つの第1のサブセットの特徴量に基づいており、第2の特徴量メトリック(第2のサブセットに対応する)は、少なくとも1つの第2のサブセットの特徴量に基づいている。
【0043】
一貫性メトリックモジュール
図10に示すように、特徴量メトリックアレイ901は、一貫性メトリックモジュール207に入力される。一貫性メトリックモジュール207は、複数のサブセットにわたる所与の特徴量タイプに対応する特徴量メトリックの変動性の測度を決定する。変動性の測度は、例えば、標準偏差、標準偏差の推定、又は平均値により調整される標準偏差の推定として計算されてよい。一実施形態では、例えば、変動性の測度は、平均値で割った標準偏差により決定されてよく、したがって、平均値により調整される標準偏差の推定である。これにより、1つよりも多い特徴量タイプ及び1つよりも多いサブセットに関する変動性の測度のアレイが、一貫性メトリックアレイ1001を形成する。したがって、一貫性メトリックモジュールによる出力は、一貫性メトリックアレイ1001であり、一貫性メトリックアレイにおける少なくとも1つの一貫性メトリックのそれぞれは、特徴量タイプと関連付けられる。したがって、特徴量タイプに関する第1の一貫性メトリックは、少なくとも第1の特徴量メトリック(第1のサブセットに対応する)及び第2の特徴量メトリック(第2のサブセットに対応する)に基づいている。
【0044】
特徴量パワーモジュール
同じくいくつかの実施形態に存在するのは、図11に示される特徴量パワーモジュール208である。特徴量パワーモジュール208は、特徴量メトリックアレイ901(少なくとも1つの特徴量メトリックを備える)と一貫性メトリックアレイ1001を受信する。特徴量パワーモジュールは、モードセレクタ1101とコンバイナユニット1102を含み、モードセレクタ1101は、特徴量メトリックアレイ901に基づいてコンバイナユニット1102において行う組み合わせのタイプを決定する。一実施形態では、モードセレクタは、所与の特徴量タイプに関する各特徴量メトリックの各符号が正であると決定すると第1の組み合わせタイプを選択し、所与の特徴量タイプに関する各特徴量メトリックの各符号が負であると決定すると第2の組み合わせタイプを選択し、すべての他の場合に関して第3の組み合わせタイプを選択する。
【0045】
コンバイナユニット1102は、モードセレクタ1101の決定に応じて異なるモードで動作する。モードセレクタ1101が、所与の特徴量タイプに関する第1の組み合わせタイプを決定する場合、コンバイナユニット1102は、第1の組み合わせレジームで動作する。例示的な実施形態において、第1の組み合わせレジームは、(1)所与の特徴量タイプに関する各特徴量メトリックの平均の測度と(2)所与の特徴量タイプに関連する一貫性メトリックとの乗算を出力する。モードセレクタ1101が、所与の特徴量タイプに関する第2の組み合わせタイプを決定する場合、コンバイナユニット1102は、第2の組み合わせレジームで動作する。例示的な実施形態において、第2の組み合わせレジームは、(1)と(2)との除算を出力する。したがって、第1の組み合わせレジームと第2の組み合わせレジームは同一ではない。モードセレクタ1101が、所与の特徴量タイプに関する第3の組み合わせタイプを決定する場合、コンバイナユニット1102は、第3の組み合わせレジームで動作する。例示的な実施形態において、第3の組み合わせレジームは、事前に定義される値、例えば、ゼロと(1)と(2)の積を出力する。したがって、コンバイナユニット1102は、データセット101の所与の特徴量タイプに関連する使用性メトリック1103を出力する。したがって、特徴量パワーモジュール208の出力は、使用性メトリックアレイ1104(少なくとも1つの使用性メトリック)であり、使用性メトリックアレイ内の使用性メトリックは、データセットの特徴量タイプに対応する。
【0046】
選択モジュール
同じく説明されるのは、図12に示される選択モジュール209である。選択モジュール209の入力は、一貫性メトリックアレイ1001、特徴量メトリックアレイ901、使用性メトリックアレイ1104、並びに、閾値モード選択1201及びデータセット101を含む。選択モジュール209は、入力に基づいてデータセットの次元を削減する。図12に示すように、一貫性メトリックアレイ1001、特徴量メトリックアレイ901、及び使用性メトリックアレイ1104は、それぞれ、所与の特徴量タイプに関する一貫性メトリック、特徴量メトリック、及び使用性メトリックで動作する、閾値決定器1202に入力される。閾値決定器1202は、特徴量セットから特徴量タイプを廃棄するための閾値1203を決定し、閾値1203は、一貫性メトリック、特徴量メトリック、及び使用性メトリックのうちの少なくとも1つに基づいている。いくつかの実施形態において、閾値モード選択1201は、閾値決定器1202に関するモードを決定する。閾値モード選択1201により決定される第1のモードにおいて、例えば、閾値決定器1202は、使用性メトリックアレイ1104に適用するカットオフ閾値1203を決定する。第1のモードにおいて、次いで、閾値決定器1202は、例えば、すべての特徴量タイプに関する使用性メトリックの中央値となるカットオフ閾値1203を決定する。したがって、閾値カットオフ値1203に関する中央値の例の下の第1のモードにおいて、すべての特徴量の半分は、カットオフ閾値1203を下回る使用性メトリックと関連付けられるであろう。閾値モード選択1201により決定される第2のモードにおいて、例えば、閾値決定器1202は、加法、乗法、又は他の方法のいずれかにより、一貫性メトリック、使用性メトリック、及び特徴量メトリックのうちの少なくとも2つを閾値メトリックへ組み合わせ、次いで、所与の特徴量タイプに関する閾値メトリックのポピュレーションに基づいてカットオフ閾値1203を決定する。第3のモードにおいて、例えば、閾値決定器1202は、一貫性メトリック、使用性メトリック、及び特徴量メトリックのうちの少なくとも1つに基づいて閾値メトリックを決定し、閾値メトリックの閾値を事前に定義される値に決定する。
【0047】
コンパレータ1204は、閾値決定器によって用いられるのと同じプロセスに従って閾値メトリックを決定する。いくつかの実施形態において、次いで、閾値決定器は、計算した閾値メトリックをコンパレータ1204に送る。コンパレータ1204は、次いで、所与の特徴量に関する一貫性メトリック、使用性メトリック、及び特徴量メトリックのうちの少なくとも1つに基づく閾値メトリックを、閾値決定器1202により決定されたカットオフ閾値1203と比較する。閾値メトリックは、変換を通じて、一貫性メトリック、使用性メトリック、及び特徴量メトリックのうちの少なくとも1つに基づいていてよく、又は一貫性メトリック、使用性メトリック、及び特徴量メトリックのうちの1つに等しくてよい。コンパレータ1204が、所与の特徴量タイプに関する閾値メトリックがカットオフ閾値1203を下回ると判定すると、コンパレータ1204は、その所与の特徴量タイプの特徴量をデータセットから削除し、これにより、次元削減されたデータセット1205を出力する。
【0048】
本発明は、本明細書で説明した特定の実施形態に限定されず、さらなる実施形態が可能であることが当業者には分かるであろう。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【国際調査報告】