(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】2019522256
(43)【公表日】20190808
(54)【発明の名称】疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステム
(51)【国際特許分類】
   G16H 50/70 20180101AFI20190712BHJP
   G06F 16/35 20190101ALI20190712BHJP
   G16H 70/40 20180101ALI20190712BHJP
   A61K 45/00 20060101ALI20190712BHJP
   A61P 43/00 20060101ALI20190712BHJP
【FI】
   !G16H50/70
   !G06F16/35
   !G16H70/40
   !A61K45/00
   !A61P43/00
【審査請求】有
【予備審査請求】有
【全頁数】40
(21)【出願番号】2018556465
(86)(22)【出願日】20170505
(85)【翻訳文提出日】20181207
(86)【国際出願番号】EP2017060844
(87)【国際公開番号】WO2017194431
(87)【国際公開日】20171116
(31)【優先権主張番号】16169452.6
(32)【優先日】20160512
(33)【優先権主張国】EP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ.ホフマン−ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
【住所又は居所】スイス・シーエイチ−4070バーゼル・グレンツアーヘルストラツセ124
(74)【代理人】
【識別番号】100102978
【弁理士】
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【弁理士】
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【弁理士】
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【弁理士】
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【弁理士】
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【弁理士】
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【弁理士】
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【弁理士】
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【弁理士】
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【弁理士】
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100114889
【弁理士】
【氏名又は名称】五十嵐 義弘
(74)【代理人】
【識別番号】100121072
【弁理士】
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】バンシュー マークス
【住所又は居所】ドイツ連邦共和国 81545 ミュンヘン ハルトハウザーシュトラーセ 32
(72)【発明者】
【氏名】ハイネマン ファビアン
【住所又は居所】ドイツ連邦共和国 81373 ミュンヘン トレフアウアーシュトラーセ 38
(72)【発明者】
【氏名】マイゼル クリスチャン
【住所又は居所】ドイツ連邦共和国 82069 ホーエンシェーフトラルン アイヒェンドルフヴェーク 7ディー
(72)【発明者】
【氏名】ヒューバー トールステン
【住所又は居所】ドイツ連邦共和国 10243 ベルリン シュトラーセ デア パリーザー コンムネ 28
(72)【発明者】
【氏名】レーザー ウルフ
【住所又は居所】ドイツ連邦共和国 10245 ベルリン レンバッハシュトラーセ 10
【テーマコード(参考)】
4C084
5L099
【Fターム(参考)】
4C084AA17
4C084NA14
4C084ZC801
5L099AA25
(57)【要約】
本発明は、疾患を治療するために標的へ向けられた薬物の効力を予測するためのシステムに関し、このシステムは、標的および/または疾患の識別子を含む生物医学文献(214)を受け取り(602)、予測の実施前の時間間隔を指示するオフセット時間(d)を指定し(604)、オフセット時間の開始時に終了する時間窓(706)を指定し(606)、受け取った文献のうち時間窓の間に発行された文献から選択的に複数の特徴(222)を抽出し(608)、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前のオフセット時間の開始時に終了する訓練時間窓内に発行された生物医学訓練文献セットから抽出された訓練特徴(220)で訓練された分類器(226.3)を提供し(610)、抽出された特徴を分類器に入力として提供することによって分類器を実行し(612)、標的へ向けられた薬物が疾患の治療に使用できるかどうかを示す分類結果を出力する(614)ように構成されたプロセッサを含む。
【特許請求の範囲】
【請求項1】
疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための方法であって、電子システムで実施され、以下の工程:
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取る工程(602);
予測の実施前の時間間隔を指示するオフセット時間(d)を指定する工程(604);
オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定する工程(606);
受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程(608);
生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供する工程(610)であって、該訓練文献が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものである、工程;
該分類器を実行し、該抽出された特徴を該分類器に入力として提供することによって、予測を実施する工程(612);
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程(614)
を含む、方法。
【請求項2】
前記オフセット時間(d)が、複数の異なる既定のオフセット時間(d-1、d-2、d-3、d-4、...、d-11)のうちの1つであり、前記訓練された分類器(226.3)が、訓練時間窓内に発行された生物医学訓練文献(212)から抽出された訓練特徴(220)で訓練された複数の分類器(226.10、...、226.1)のうちの1つであり、該分類器の各々の該訓練時間窓が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)前の異なる訓練オフセット時間(d-1、d-2、d-3、d-4、...、d-11)に終了し、
既定のオフセット時間の各々について、
既定のオフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出する工程;
抽出された複数の特徴を、複数の分類器のうち、既定のオフセット時間と同一である訓練オフセット時間に終了する訓練時間窓内に発行された訓練文献から抽出された訓練特徴(220)セットで訓練された分類器に選択的に、入力として提供する工程;
該特徴が提供された分類器を実行することによって予測を実施する工程;および
前記疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する工程
を含む、請求項1記載の方法。
【請求項3】
組み合わせ結果を生成するために、前記複数の実行された分類器によって出力された結果を組み合わせる工程であって、該組み合わせ結果は、医学研究の結果が、前記標的へ向けられた薬物を前記疾患の治療に使用することができるという結果になるかどうかを示す、工程
をさらに含む、請求項2記載の方法。
【請求項4】
時間窓(704、706、708)が複数の時間間隔(I-20、...、I-01)を含む、前記請求項のいずれか一項記載の方法。
【請求項5】
受け取った文献のうち前記時間窓の間に発行された文献から複数の特徴(222)を抽出する工程が、
受け取った文献の各々を、時間間隔(I-20、...、I-01)のうち、その文献の発行日を範囲とするものに割り当てる工程;
時間間隔(I-03;I-04)の各々について、受け取った文献のうち時間間隔(I-03)の間に発行された文献から複数の第1の特徴(222 FA-03、FA-04)を抽出し、受け取った文献のうち該時間間隔(I-03;I-04)および前記窓(706)内のすべての先行する時間間隔(I-04;I-22;I-05;I-22)に発行された文献から複数の第2の特徴(222 FB-03、FB-04)を抽出する工程
を含む、請求項4記載の方法。
【請求項6】
時間間隔(I-24〜I-01)が年数であり、前記時間窓内の時間間隔の数が5〜25の範囲内にある、請求項4〜5のいずれか一項記載の方法。
【請求項7】
既定のオフセット時間が、予測を実施する時点の前の連続した年数を含み、訓練オフセット時間が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の連続した年数を含む、請求項2〜6のいずれか一項記載の方法。
【請求項8】
受け取った文献のうち、前記標的または前記疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
該特定された発行日を含む前記時間間隔に時系列で先行する前記複数の時間間隔の任意の1つについて抽出されるすべての特徴にゼロ値を割り当てることを含む、前記指定された時間窓についての複数の前記訓練特徴を抽出する工程
をさらに含む、請求項4〜7のいずれか一項記載の方法。
【請求項9】
時間窓が、
前記標的および/もしくは前記疾患に関する基礎研究が行われる時間;ならびに/または
該疾患の標的探索が行われる時間;ならびに/または
該標的へ向けられた薬物および該疾患の前臨床試験が行われる時間;ならびに/または
該標的へ向けられた薬物および該疾患の臨床試験が行われる時間
を範囲とする、前記請求項のいずれか一項記載の方法。
【請求項10】
追加の特徴を自動的に検索するために1つまたは複数の生物医学データベースに自動的に問合せる工程であって、該追加の特徴が、
細胞内の前記標的の位置を示すデータ;
該標的が細胞の表面に発現されているかどうかを示すデータ;
疾患における示差的発現のレベルを示すデータ;
該標的上の適切な薬物結合部位の検出を可能にする該標的の構造データ;
該標的の機能クラス(すなわち、「チロシンキナーゼ」);
構造的に類似した標的の検出を可能にする該標的の構造データ(例えば、該標的の3Dモデル);および/または
該標的を含む、または該標的によって影響される生化学的経路を示すデータ
を含む群より選択される、工程;ならびに
該追加で検索された特徴を前記分類器にさらなる入力として提供する工程
をさらに含む、前記請求項のいずれか一項記載の方法。
【請求項11】
前記特徴が、
前記文献が前記標的の識別子を含むかどうかにかかわらず前記疾患の識別子を含む文献から選択的に抽出された特徴;
該文献が該疾患の識別子を含むかどうかにかかわらず該標的の識別子を含む文献から選択的に抽出された特徴;ならびに
該疾患および該標的の識別子を含む文献から選択的に抽出された特徴
を含む、前記請求項のいずれか一項記載の方法。
【請求項12】
前記文献がソース文献データベースから受け取られ、前記抽出された特徴が、
前記標的および前記疾患の識別子を含む文献数を示し、該特徴が抽出される前記時間間隔のうちの前記1つもしくは複数に発行された正規化文献数であって、該1つもしくは複数の時間間隔に発行された、該標的もしくは該疾患もしくはその両方の識別子を含む生物医学文献全体にわたって正規化されている、正規化文献数;ならびに/または
該疾患および該標的の識別子を含む少なくとも2つの文献を発行した著者の数を示すコミットメントインデックス;ならびに/または
該標的および/もしくは該疾患の識別子を含み、MeSH主要副標目「薬物療法(drug therapy)」および「治療的使用(therapeutic use)」を含む文献数
を含む、前記請求項のいずれか一項記載の方法。
【請求項13】
前記抽出された特徴が、
前記標的および前記疾患の識別子を含む前記文献数を示す非正規化文献数;
該標的および/または該疾患の識別子を含む文献の著者数;
該標的および/または該疾患の識別子を含む文献の、生物工学または製薬産業に関係した著者の割合;
該標的および/または該疾患の識別子を含む該文献に含まれる、参照文字列長当たりの遺伝子、化学物質および/または薬物の数;
「第1相」、「第2相」、もしくは「第3相」という語句、またはそれらの同義語のうちの少なくとも1つを含み、該標的および/または該疾患の識別子をさらに含む文献数
を含む群の中から選択された1つまたは複数の特徴を含む、前記請求項のいずれか一項記載の方法。
【請求項14】
前記訓練された分類器がランダムフォレスト分類器である、前記請求項のいずれか一項記載の方法。
【請求項15】
前記薬物が小分子もしくは生物学的製剤であり、かつ/または前記疾患がヒトがんもしくはヒトがんサブタイプである、前記請求項のいずれか一項記載の方法。
【請求項16】
E=MeSH#observed/MeSH#maxに従って、正規化されたシャノンエントロピーEを計算する工程であって、式中、MeSH#observedは、前記検索文献のMeSH主要副標目の数であり、MeSH#maxは、MeSHシソーラスで定義されたMeSH主要副標目の数であり、E=0は、すべての検索文献におけるただ1つのMeSH主要副標目の使用に対応し、E=1は、すべての既存のMeSH主要副標目の等しい使用に対応する、工程;および
該計算されたエントロピーを、前記標的および前記疾患に関して実行された生物医学研究の成熟の尺度として使用する工程
をさらに含む、前記請求項のいずれか一項記載の方法。
【請求項17】
分類器を訓練するための方法であって、訓練された分類器(226.3)が、疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するように構成され、該方法は、電子システムにおいて実施され、以下の工程:
標的疾患訓練対セットを提供する工程であって、該セットは正の標的疾患対を含み、該正の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療することが知られている標的を含み、該セットは負の標的疾患対をさらに含み、該負の標的疾患対はそれぞれ、その活性の修飾が該標的疾患対に含まれる疾患を治療しないことが知られている標的を含む、工程;
訓練オフセット時間(d)を指定する工程であって、該訓練オフセット時間は、該標的疾患訓練対に関連した訓練研究の結果が開示された時点(OC)の前の時間間隔(d-1、d-2、d-3、d-4、...、d-11)を示し、各訓練研究は、該標的疾患訓練対で指定された疾患を治療するために該標的へ向けられた薬物の効力を評価するように設計されている、工程;
該訓練オフセット時間に終了する、既定の持続時間の時間窓(706)を指定する工程;
該セットの標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、指定された訓練オフセット時間(d)について、該標的疾患訓練対について抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.3)を生成する工程
を含む、方法。
【請求項18】
前記訓練オフセット時間(d)が、複数の異なる既定の訓練オフセット時間(d-1、d-2、d-3、d-4、...、d-11)のうちの1つであり、
該既定の訓練オフセット時間の各々について、
該訓練オフセット時間に終了する、既定の持続時間のさらなる時間窓(704、708)を指定する工程;
前記セットの前記標的疾患訓練対の各々について、
・該標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献(212)を受け取る工程;
・受け取った文献のうち、該さらなる時間窓の間に発行された文献から選択的に、複数の訓練特徴(220)を抽出する工程;
訓練されていない分類器(224)を、抽出された訓練特徴で選択的に訓練することによって、訓練された分類器(226.1、...、226.10)を生成する工程
を含む、請求項17記載の方法。
【請求項19】
前記時間窓(706)が複数の時間間隔(I-20、...、I-01)を含み、
前記標的疾患訓練対の各々について、
前記受け取った訓練文献のうち、該標的疾患訓練対の標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
複数の時間間隔(I-20、...、I-01)のうち、該特定された発行日を含む1つの時間間隔を特定する工程;
該複数の時間間隔のうち、該特定された1つの時間間隔に時系列で先行する任意の1つについて抽出されるすべての訓練特徴にゼロ値を割り当てることを含む、複数の訓練特徴を抽出する工程
を含む、請求項17または18のいずれか一項記載の方法。
【請求項20】
請求項1〜6のいずれか一項記載の方法を行うために前記1つまたは複数の生成された訓練された分類器を使用する工程をさらに含む、請求項17〜19のいずれか一項記載の方法。
【請求項21】
プロセッサによって実行されると、前記請求項のいずれか一項記載の方法を該プロセッサに行わせる命令を含む、不揮発性記憶媒体。
【請求項22】
疾患を治療するために標的へ向けられた薬物の効力を評価する医学研究の結果を予測するための電子システムであって、
該標的の識別子もしくは該疾患の識別子または該標的および該疾患の識別子を含む生物医学文献(214)を受け取り(602)、
該予測の実施前の時間間隔を指示するオフセット時間(d)を指定し(604)、
該オフセット時間の開始時に終了する、既定の持続時間の時間窓(706)を指定し(606)、
該受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴(222)を抽出し(608)、
訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点(OC)の前の該オフセット時間の開始時に終了する訓練時間窓内に発行された生物医学訓練文献セットから抽出された訓練特徴(220)セットで訓練された分類器(226.3)を提供し(610)、
該分類器を実行して、該抽出された特徴を該分類器に入力として提供することによって、該予測を実施し(612)、
該疾患を治療するために標的へ向けられた薬物の効力を予測する該分類器の結果を出力する(614)
ように構成されたプロセッサを含む、電子システム。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は、機械学習の分野に関し、より詳細には、疾患を治療する薬物の効力予測の分野に関する。
【背景技術】
【0002】
背景および関連技術
薬物の開発には時間と費用がかかる。臨床試験、特に後期の臨床試験の失敗は、製薬会社にとって大きな原価作用因である。したがって、新しい潜在的な薬物の成功の見込みについていくつかの洞察を提供する方法は、特定の薬物の開発および臨床試験にさらなる資源を費やすべきかどうかを判断するために大きな助けになりうる。
【0003】
先行する研究は、例えば、新しい「革新的」技術領域を発見するためのテキストマイニング手法を使用して行われてきた(Reardon, S.2014:“Text-mining offers clues to success”, Nature 509, 1(非特許文献1))。さらに、多数の出版物が臨床試験におけるそのような薬物の成功を示す可能性があることが報告されている(Joshi, V. and Miiletti, F., 2014, “Quantifying the probability of clinical trial success from scientific articles”, Drug discovery today 19(10), 1514-1517(非特許文献2))。しかし、現在のツールおよび技術では、臨床試験の結果を正確に予測することができない。論文“A Tool for Predicting Regulatory Approval After Phase II Testing of New Oncology CompoundsICAL PHARMACOLOGY&THERAPEUTICS”, VOLUME 98 NUMBER 5, November 2015, JA DiMasi et al.(非特許文献3)には、第2相試験後の新しい抗がん剤についての規制当局の販売承認を予測するためのアルゴリズムが記載されている。公的情報源から安全性、効力、運用性、市場性、企業特性に関するデータを入手し、ロジスティック回帰と機械学習を使用して全体的な予測可能性が評価された。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Reardon, S.2014:“Text-mining offers clues to success”, Nature 509, 1
【非特許文献2】Joshi, V. and Miiletti, F., 2014, “Quantifying the probability of clinical trial success from scientific articles”, Drug discovery today 19(10), 1514-1517
【非特許文献3】“A Tool for Predicting Regulatory Approval After Phase II Testing of New Oncology CompoundsICAL PHARMACOLOGY&THERAPEUTICS”, VOLUME 98 NUMBER 5, November 2015, JA DiMasi et al.
【発明の概要】
【0005】
概要
本発明の目的は、独立請求項に規定されている医学研究の結果を予測するための改善された方法、システムおよびコンピュータ可読記憶媒体を提供することである。本発明の各態様は従属請求項に示されている。本発明の各態様は、相互に排他的でない場合、相互に自由に組み合わせることができる。
【0006】
一局面において、本発明は、医学研究の結果を予測するための方法に関する。医学研究は、疾患を治療するために標的へ向けられた薬物の効力を評価する。本方法は、電子システムにおいて実施され、以下の工程を含む:
標的もしくは疾患の、または標的および疾患の識別子を含む生物医学文献を受け取る工程;
予測実施前の時間間隔を指示するオフセット時間を指定する工程;
オフセット時間の開始時に終了する、既定の持続時間の時間窓を指定する工程;
受け取った文献のうち、該時間窓の間に発行された文献から選択的に、複数の特徴を抽出する工程;
生物医学訓練文献セットから抽出された訓練特徴セットで訓練された分類器を提供する工程であって、該訓練文献が、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものである、工程;
分類器を実行し、抽出された特徴を分類器に入力として提供することによって予測を実施する工程;
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する工程。
【0007】
文献を選択するのに使用される時間窓の境界を定義するためのオフセットを使用して特徴抽出のデータソースを形成し、抽出された特徴を、その抽出が同じオフセット時間に基づくものである訓練特徴で訓練された分類器に入力として提供することは、好都合となりうる。それは、研究の結果の発行日の前のオフセット時間も考慮することにより、予測精度が著しく高まりうることが確認されているからである。現在の医学研究の結果に関する文献に基づく予測を行う時点では、研究の結果だけでなく、研究が、疾患を治療するために標的へ向けられた薬物の効力に関する統計的に有意な結果をいつ提供することになるかも不明確である。そのため、予測を行う時点では、前記標的へ向けられた薬物が有効か否かを明確に判定するのに十分な生物医学データがいつ集まるのかが明確ではない。特定の標的へ向けられた薬物が特定の疾患を治療するのに有効かどうかの問題は暗黙的に、特定の標的が、その修飾が前記疾患を治療することができる生化学活性を有する分子であるかどうかも明らかにする。
【0008】
サイズが固定された時間窓を使用することは、分類器の訓練手順が、薬物疾患対の最初の言及および研究の結果が開示されてから経過した年数にかかわらず、常に同じであるという利点をさらに有しうる。よって、同じタイプの(訓練されていない)分類器が、(例えば、5〜6年から30年以上までにわたる、)1つの文献における最初の同時言及(co-mentioning)からの全く異なる時間間隔を範囲とする標的疾患対を含む訓練データセットで訓練されうる。訓練フェーズの開始前の訓練されていない分類器の再構成が不要となりうる。
【0009】
特徴を、単に利用可能な/予測前に発行されたすべての文献からではなく、時間窓の間に発行された文献からのみ抽出すると、予測の精度が低下しないばかりか、予測の精度が高まりさえする可能性がある。これは驚くべき観測である。一般には、判断の基礎データを拡大し、それによって判断の精度も高めることを目的として機械学習ベースの分類器に供給するために可能な限り多くのデータが集められる。機械学習の分野で一般に使用されるこの一般的な手法とは対照的に、利用可能な文献(オフセット時間の間に発行された文献でも、時間窓の開始前に発行された文献でもなく、時間窓または時間窓の一部の間に発行された文献)の定義された一部分だけが特徴を抽出するのに使用される。さらに、利用可能な文献の定義された一部のみで訓練された分類器を使用した。それにもかかわらず、開示時点(研究の結果、すなわち、特定の標的へ向けられた薬物が疾患を治療することができるかどうかを示す結果の開示)に対する予測時点の時間距離も考慮に入れることにより、基礎データのサイズの低減に典型的に伴う精度損失を補償し、さらに過補償さえしうることが確認されている。
【0010】
定義されたオフセット時間で終了する時間窓にわたって選択的に特徴を抽出し、抽出された特徴を機械学習分類器に供給することにより、経験に基づく推測よりも著しく優れた、標的へ向けられた(標的指向)抗がん剤の承認または失敗の予測を可能にしうる。
【0011】
本発明の態様は、疾患を治療することができる特定の標的へ向けられた薬物を、もう少しで成功する、すなわち、第2相/第3相の臨床試験でのみ失敗する薬物と首尾よく区別することを可能にしうる。さらに、本発明の態様は、疾患を治療することができる特定の標的へ向けられた薬物を、薬物開発プロセスにおいてそうした後期に到達しなかった、またはまだ到達していない標的疾患対へ向けられた薬物と首尾よく区別することを可能にしうる。
【0012】
本発明の態様は、文献からオフセット時間に依存する特徴を抽出することによって、最終的に承認される標的指向抗がん剤と最終的に失敗する標的指向抗がん剤との早期の区別を可能にしうる。特に、本発明の態様は、著しく高い精度で第2相または第3相における薬物の成功を予測することができる訓練された分類器を提供しうる。本発明の態様は、科学出版物を介して創薬プロセスの間に何千人もの科学者らによって作成された暗黙的なシグナルを自動的に特定し、系統的に解析することを可能にしうる。暗黙的なシグナルは、定義された標的に関する薬物の承認に最終的につながる知見と失敗する知見とについて、研究者らが総合的にどのように発表するかにおける差異に関するものである。
【0013】
本発明の態様は、特定の疾患を治療する薬物の効力が、特定の標的の活性の修飾(例えば、転写または翻訳レベルの修飾、メチル化またはリン酸エステル化パターンの修飾、細胞内または細胞間の標的の輸送の修飾など)が特定の疾患を治療するか否かの問題に強く、または圧倒的にさえも依存するという前提に基づくものである。
【0014】
態様によれば、訓練標的疾患対は、効力を有することまたは有しないことが知られている薬物の存在する標的疾患(T-DI)対が、負のT-DI対または正のT-DI対として使用されるように、選択される。これは、前記T-DI対が負の訓練T-DI対と正の訓練T-DI対として同時に使用されてはならないことを意味する。特定のT-DI対について、標的へ向けられた、疾患を治療できることまたは治療できないことが知られている2つ以上の薬物が存在する場合には、薬物のうちの1つおよび対応するデータだけが分類器の訓練に使用される。この場合、それら2つ以上の薬物の各々について、それぞれの「判断時点」、すなわち、前記薬物が疾患を治療することができるか否かを評価する研究の結果の開示の時点が分かっている。優先的に、これら研究のうち、開示時点が最も早い研究によってその効力が調査された薬物だけが訓練プロセスで使用され、前記薬物に対応する研究の結果の開示の時点が窓を指定し、訓練文献を検索するためのオフセット時間を決定する基準とする「判断時点」として使用される。
【0015】
例えば、特定の疾患と特定の標的とを含む所与のT-DI対について、どちらも標的に結合して標的の活性を修飾する第1の薬物および第2の薬物が知られている。第1の薬物は、特定の疾患の治療に有効であることが(例えば、2012年3月のFDA承認により)知られている。第2の薬物は、その疾患に無効であることが(例えば、2012年8月のFDA拒絶により)知られている。この場合、第1の薬物の「判断時点」は第2の薬物の「判断時点」に先行する。したがって、第1の薬物に関連するデータおよび文献が訓練フェーズで考慮され、対応するT-DI対が正の訓練T-DI対として使用される(特定のT-DI対に関連する2つの薬物のうち最も早い「判断時点」を有するものが、その疾患の治療に有効であることが知られている第1の薬物である)。第2の薬物に関する(負の)結果が、第1の薬物の効力に関する結果より先に発行されていた場合には、前記T-DI対は負の訓練T-DI対として使用されたはずである。
【0016】
前記特徴は、異なる効力を有する異なる薬物に関連しうる特定のT-DI対について検索された文献セットにおける不明確さを回避し、または少なくとも減らしうる。
【0017】
いくつかの他の態様によれば、訓練文献として使用される文献の検索は、特定の標的疾患対の疾患および/または標的に言及しており、さらに2つ以上の薬物のうちの特定の1つにも言及している任意の文献が選択的に検索されるように、実施される。この場合、特定の標的へ向けられた薬物が疾患の治療に有効であるか否かの研究の結果を予測するのに使用される文献の検索はまた、検索文献が、調査される薬物の名前に言及していることが必要とされるように、実施される。よって、同じT-DI対に関連する異なる薬物についての異なる(訓練および試験)文献が検索される。薬物-標的-化合物の共起を含む文献の検索も同様に、異なる効力を有する異なる薬物に関連しうる特定のT-DI対について検索された文献セットにおける不明確さを回避し、または少なくとも減らすのに役立ちうる。
【0018】
本明細書で使用される「医学研究の結果」という表現は、特定の標的へ向けられた特定の薬物が(その薬物の安全性を問わず)特定の疾患の治療に有効であるか否かを少なくとも示す医学研究の結果である。したがって、薬物は、その薬物の安全性を問わず疾患に対して有効であると分類されうる。この場合、正の標的疾患訓練対および負の標的疾患訓練対は、薬物の安全性を問わない特定の疾患へ向けられた薬物の証明された能力の有無にのみ依存して選択されうる。
【0019】
いくつかの態様によれば、薬物は、それが前記疾患の治療について既存の「ゴールドスタンダード」よりも効率的である場合、かつ/または薬物が既存のゴールドスタンダードと同等に効率的であり、患者の健康に対するマイナスの副作用が少ない(すなわち、ゴールドスタンダードよりも安全である)場合に限り、前記疾患の治療に有効であると予測される。
【0020】
いくつかの態様によれば、薬物は、それが安全であるとさらに予測される、すなわち、薬物の健康促進効果を上回るマイナスの副作用を引き起こさないとさらに予測される場合に限り、前記疾患の治療に有効であると予測される。この場合、正の標的疾患訓練対は、その標的疾患対についてそれぞれの薬物が有効かつ安全であることが証明されたことが知られている標的疾患対からなり、負の標的疾患訓練対は、その標的疾患対についてその薬物が、疾患の治療に有効ではないことが証明され、かつ/または安全でないことが証明された標的疾患対からなるように、正の標的疾患訓練対および負の標的疾患訓練対が選択される。
【0021】
いくつかの態様によれば、医学研究は、現在の科学的標準に基づいて特定の薬物が特定の疾患の治療に有効であるか否かを証明する基礎研究の分野における、科学出版物である。他の態様によれば、医学研究は、規制当局、例えば、食品医薬品局「FDA」による薬物承認を取得するために行われる研究であり、研究の「結果」は、疾患の治療のためのその薬物の使用を承認または拒絶する規制当局の最終判断である。例えば、この場合、正の訓練標的疾患対は、特定の疾患の治療についてのFDA承認が存在する標的を含み、負の訓練標的疾患対は、承認が有効性の欠如および/または安全性の欠如により拒絶された標的を含む。
【0022】
態様によれば、オフセット時間は、複数の異なる既定のオフセット時間のうちの1つである。訓練された分類器は、訓練時間窓内に発行された生物医学訓練文献から抽出された訓練特徴で訓練された複数の分類器のうちの1つである。各分類器の訓練時間窓は、異なる訓練オフセット時間で、すなわち、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点の前の異なる時間間隔で、終了する。既定のオフセット時間の各々について、本方法は以下の工程を含む:
既定のオフセット時間に終了する、既定の持続時間のさらなる時間窓を指定する工程;
受け取った文献のうち、上記さらなる時間窓の間に発行された文献から選択的に、複数の特徴を抽出する工程;
抽出された複数の特徴を、既定のオフセット時間と同一である訓練オフセット時間に終了する訓練時間窓内に発行された訓練文献から抽出された訓練特徴セットで訓練された複数の分類器のうちの1つに選択的に入力として提供する工程;
特徴が提供された分類器を実行することによって予測を実施する工程;および
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する工程。
【0023】
オフセット時間ごとに特徴セットを抽出するための複数の異なるオフセット時間を考慮に入れることによって、また所与のオフセット時間について抽出された入力特徴が、同じ(訓練)オフセット時間に基づいて生成された訓練特徴について訓練された複数の分類器のうちの1つに選択的に提供されるように複数の分類器に供給することによって、文献における報告と薬物の運命に関する判断との間の時間が考慮に入れられうる。これにより、(例えば、単に特定の研究課題について利用可能なすべての文献から特徴を抽出することと比較して)予測の精度が高まりうる。
【0024】
態様によれば、本方法は、組み合わせ結果を生成するために、複数の実行された分類器によって出力された結果を組み合わせる工程を含む。組み合わせ結果は、(現在の予測時点から開始する将来のオフセット時間に行われる)医学研究の結果が、特定の標的へ向けられた薬物が疾患の治療に有効であるという結果になるかどうかを示す。
【0025】
それぞれのオフセット時間依存性訓練特徴セットで訓練された複数の分類器の予測結果を組み合わせることによって、予測の精度が著しく高まりうる。
【0026】
例えば、結果の組み合わせは、すべての訓練された分類器によって生成された結果の中央値を計算することを含みうる。例えば、10の異なるオフセット(現在の予測時点の前の1年間、2年間、...、9年間および10年間)が、20年間を範囲とするスライディング時間窓の10の異なるエンドポイントを定義するために使用されうる。よって、検索文献の10の異なるサブセットが、特徴抽出のためと、10の異なるオフセット依存性特徴セットを生成するための、基礎データとして使用されうる。特徴セットの各々は、特定の標的へ向けられた薬物が疾患を治療することができるかどうかのオフセット依存性予測を生成するために、それぞれの分類器に供給される。例えば、(10年間のオフセット時間に対応する)第1の分類器は、標的へ向けられた薬物が疾患を治療できるかどうかの指示を出力しうる。例えば、指示は、2値の「はい」または「いいえ」とすることともでき、尤度パーセンテージ値とすることもできる。例えば、指示は、標的へ向けられた薬物が疾患を治療できる49%の尤度でありうる。(9年間のオフセット時間に対応する)第2の分類器は、標的へ向けられた薬物が疾患を治療できる53%の尤度を出力し、以下同様としうる。10の分類器の各々が尤度パーセンテージ値の形でその判断結果を出力した後、例えば、10の尤度パーセンテージ値の中央値が計算され、最終的な組み合わせ結果として出力される。組み合わせ結果は、医学研究の結果が、標的へ向けられた薬物が疾患を治療することができるという結果になるかどうかの組み合わされた予測結果を示す。中央値の代わりに、算術平均または代表値、もしくは平均値を計算するための他の数学的手法が、複数の分類器によって出力された結果から組み合わせ結果を計算するのに使用されてもよい。個々の分類器が2値の予測結果を生成する場合、組み合わせ結果も、分類器の過半数によって出力された2値結果と同一の2値結果とすることができる。
【0027】
組み合わせ結果は、医学研究の結果の予測の前の複数の異なる時間間隔に対応する複数の分類器によって生成された結果に含まれる情報を統合したものであるため、予測の精度が高まりうる。
【0028】
態様によれば、時間窓は、複数の時間間隔を含む。例えば、時間間隔は、一連の連続した時間間隔、典型的には年数とすることができる。
【0029】
態様によれば、受け取った文献のうち時間窓の間に発行された文献から複数の特徴を抽出する工程は、以下の工程を含む:
受け取った文献の各々を、時間間隔のうち、その文献の発行日を範囲とするものに割り当てる工程;
時間間隔の各々について、受け取った文献のうち前記時間間隔の間に発行された文献から複数の第1の特徴を抽出し、受け取った文献のうち前記時間間隔および窓における前記時間間隔に先行するすべての時間間隔の間に発行された文献から複数の第2の特徴を抽出する工程。
【0030】
ただ1つの比較的短い時間間隔、例えば1年間を範囲とする第1の特徴と、比較的長い期間(典型的には複数年間)を範囲とする第2の特徴の両方を抽出することは、有利となりうる。というのは、この種の特徴抽出が異常値に対してよりロバストでありうるからである。特に、新しい研究分野の初期において、1年ごとの発行件数は少ない。複数の時間間隔を範囲とする累積的特徴も計算することによって、異常値の影響と特徴値の高変動性が低減されうる。第2の(累積的)特徴に加えて、単一の間隔に発行された文献から選択的に第1の特徴を計算することによって、複数年にわたる特徴発展の傾向の特定がより容易になりうる。というのは、前の年数の出版物は単一の評価される時間間隔について抽出された第1の特徴に影響しないからである。よって、本発明の態様は、異常値に対してロバストであると同時に特徴発展の傾向を捕捉することもできる特徴抽出法を提供する。
【0031】
よって、第1の特徴は、窓内の特定の時間間隔に、例えば特定の年内に発行された文献から抽出された特徴として記述されうる。第2の特徴は、前記単一年内に発行された、または前記単一年に先行する、時間窓が範囲とする任意の年に発行された文献から抽出された特徴として記述されうる。いくつかの態様によれば、特定の時間間隔に文献が発行されなかった場合、前記特定の時間間隔について計算される第1の特徴はゼロに設定され、前記特定の時間間隔に計算される第2の特徴は、前記特定の時間間隔に直接先行する時間間隔について抽出された第2の特徴と同一である。
【0032】
態様によれば、異なるオフセット時間の特徴を抽出するのに使用される窓は同じサイズを有する。例えば、異なる時間オフセットの特徴セットを抽出するのに使用される時間窓は常に20年間を範囲としうる。態様によれば、時間間隔は、既定の持続時間の、例えば1年間の連続した時間間隔である。窓内の連続した時間間隔数は、例えば、5〜25の範囲内、例えば20とすることができる。
【0033】
具体例を挙げると、複数の分類器の入力特徴を抽出するのに使用される窓は常に同じ長さ、例えば20年間を範囲としうる。「1」年の訓練時間オフセットで訓練された分類器の入力特徴を抽出するために、窓は、「1」年の時間オフセットを有するように「シフトされる」。これは、窓が予測時点の21年前に開始し、予測を実施する時点の前のオフセット時間(1年)前(すなわち、当日のオフセット時間前)で終了することを意味する。「3」年の訓練時間オフセットで訓練された分類器の入力特徴を抽出するために、窓は、やはり「3」年の時間オフセットを有するように「シフトされる」。すなわち、窓は、予測時点の23年前に開始し、予測時点の3年前に終了する。「10」年の訓練時間オフセットで訓練された分類器の入力特徴を抽出するために、窓は、やはり「10」年の時間オフセットを有するように「シフトされる」。すなわち、窓は、予測時点の30年前に開始し、予測時点の10年前に終了する。よって、10の異なるオフセット時間(1年、...、10年)について、10の異なる窓位置が定義され、10の異なる特徴セットが生物医学文献の異なるサブセットから抽出され、10の異なる特徴セットの各々は、10の分類器が、同じ「スライディング窓」技術によって前記10の異なるオフセット時間を使用して抽出された訓練特徴で訓練された10の訓練された分類器のうちのそれぞれに、入力として提供される。
【0034】
例えば、特定の分類器は「3」年の訓練オフセット時間に対応する。分類器は、訓練特徴を抽出するのに使用する時間窓を定義することによって訓練され、時間窓は、対応する訓練研究の結果が開示された(公知の)時点の23年前に開始し、その時点の3年前に終了する。
【0035】
態様によれば、既定の異なるオフセット時間の各々は、予測を実施する時点の前の連続した年数を含む。対応する既定の異なる訓練オフセットの各々は、訓練標的疾患対に関連した訓練研究の結果が開示された時点の前の連続した年数をそれぞれ含む。例えば、既定のオフセット時間と対応する既定の訓練オフセット時間は、0〜15年の範囲であってよい。10の異なるオフセット時間と対応する訓練オフセット時間が定義される一例によれば、最初のオフセット時間と対応する訓練オフセット時間は「1年」であり、2番目のオフセット時間と対応する訓練オフセット時間は「2年」であり、最後の既定のオフセット時間と対応する訓練オフセット時間は「10年」でありうる。
【0036】
態様によれば、本方法は、以下の工程を含む:
受け取った文献のうち、標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
前記特定された発行日を含む時間間隔に時系列で先行する複数の時間間隔の任意の1つについて抽出されるすべての特徴にゼロ値を割り当てる工程を含む、指定された時間窓についての複数の訓練特徴を抽出する工程。第1の特徴および第2の特徴が抽出される態様では、ゼロ値の割り当てを、第1の特徴の抽出時および第2の特徴の抽出時に行うことができる。
【0037】
態様によれば、前記窓は、以下の時間間隔のうちの1つまたは複数を範囲とする:
標的および/もしくは疾患に関する基礎研究が行われる時間;ならびに/または
疾患の標的探索が行われる時間;ならびに/または
標的へ向けられた薬物および疾患の前臨床試験が行われる時間;ならびに/または
標的へ向けられた薬物および疾患の臨床試験が行われる時間。
【0038】
前記特徴により、特定の標的に関する基礎研究から開始して薬物承認または失敗に至る、(例えば、標的指向がん療法の)創薬プロセスに沿って現れる出版物パターンを系統的に解析することが可能になりうる。臨床試験の第2/3相で失敗した薬物と比較した特定の標的へ向けられた承認された薬物のパターンの明確な差異が、いくつかの特徴に関して確認され、その最大の予測力を有する特徴のタイプが、試験特徴(すなわち、予測を実施するための特徴)を抽出するためと、訓練特徴(すなわち、訓練文献から抽出され、分類器を訓練するための入力として使用される特徴)を抽出するために、本明細書に記載される様々な態様において実施される。
【0039】
態様によれば、本方法は、分類器へのさらなる入力として使用される1つまたは特徴を自動的に検索するために、1つまたは複数の生物医学データベースに自動的に問合せる工程を含む。例えば、生物医学データベースは、PDBのようなタンパク質データベースとすることができ、細胞内の標的の位置に関する情報を含みうる。例えば、1つまたは複数の生物医学データベースから、例えばネットワークを介して以下の特徴が検索されうる:
標的が細胞の表面に発現されているかどうかを示すデータ;
疾患における示差的発現のレベルを示すデータ;
前記標的上の適切な薬物結合部位の検出を可能にする標的の構造データ;
標的の機能クラス(すなわち、「チロシンキナーゼ」);
構造的に類似した標的の検出を可能にする標的の構造データ(例えば、標的の3Dモデル);および/または
標的を含む、または標的によって影響される生化学的経路を示すデータ。
【0040】
前記追加の特徴は、分類器を訓練するためのさらなる訓練特徴として、かつ/または予測を実施するために分類器への入力として提供されるさらなる特徴として使用される。
【0041】
タンパク質データベースまたは他のデータベースから標的に関する追加データを検索し、そのデータを追加試験および訓練特徴として使用することは、追加の特徴が予測精度の向上を可能にしうるため、有利となりうる。
【0042】
態様によれば、抽出された特徴は以下を含む:
「疾患文献特徴」:文献が標的の識別子を含むかどうかにかかわらず疾患の識別子を含む文献から選択的に抽出された特徴;
「標的文献特徴」:文献が疾患の識別子を含むかどうかにかかわらず標的の識別子を含む文献から選択的に抽出された特徴;および
「共起文献特徴」:疾患および標的の識別子を含む文献から選択的に抽出された特徴。
【0043】
文献(上記)の異なる(例えば3つの異なる)サブセットから特定の特徴タイプ、例えば「コミットメント」を抽出することは、分類器の精度が高まることが確認されており、有利となりうる。
【0044】
態様によれば、標的または疾患の識別子を含む生物医学文献の全体は、アプリケーションプログラムによって文献ソースデータベースからネットワークを介して検索され、ローカル記憶媒体またはローカル記憶装置に格納される。検索文献は、複数の異なる既定の時間オフセットに対応する複数の異なる窓の特徴セットを抽出するために複数回再利用される。よって、特定の時間間隔について抽出された第1の特徴が、記憶媒体に格納されてよく、別の窓の時間間隔の第1の特徴を計算するときに、その別の窓も前記時間間隔を範囲とする場合に再利用されうる。
【0045】
例えば、指定される第1の窓は、1年のオフセット時間を有する窓w-01であり、特定の第1の特徴タイプについて、第1の窓の時間間隔ごとに1つ、20の第1の特徴が、計算されうる。第2の工程では、窓は、時間オフセットが2年になるように過去へ1時間間隔シフトされる。それによって、窓w-01と共通の19の時間間隔を有する新しい窓w-02が定義される。第1の窓w-01と第2の窓w-02とが範囲とする前記19の時間間隔についてすでに計算された第1の特徴は再計算されず、記憶媒体から読み出される。第2の窓w-02は範囲とするが第1の窓w-01は範囲としない単一の時間間隔だけについて、対応する追加の第1の特徴が計算される。この手法により性能が著しく高まりうる。というのは、特徴の、特に第1の特徴の少なくとも一部分が文献から1回だけ抽出され、異なるオフセット時間に対応する複数の異なる分類器のために入力として使用され、そのため、第1の特徴が導出された時間間隔の相対位置だけが、異なるオフセット時間および対応する窓について異なるからである。第2の累積的特徴の少なくとも一部は、時間間隔セットの間に発行された文献を解析することによって直接計算されず、前記時間間隔セットの間に発行された文献から抽出された第1の特徴を解析することによって計算される。これにより性能がさらに高まりうる。
【0046】
態様によれば、各第1の特徴は、その第1の特徴が検索された時間間隔の位置の指示と関連付けて分類器への入力として提供される。同様に、各第1の訓練特徴も、その第1の訓練特徴が検索された時間間隔の位置の指示と関連付けて訓練されていない分類器への入力として提供される。
【0047】
文献の異なるサブセットから多くの異なる特徴タイプを抽出することは有益となりうる。というのは、解析器が非常に豊富な特徴セットに対して特徴解析および予測を実施することが可能になりうるからである。これらの特徴は、特定の標的へ向けられた新規の薬物の承認または拒絶を数年前に予測することができる機械学習分類器の生成を可能にしうる。
【0048】
例えば、異なるオフセット時間の各々について抽出された第1の特徴は、1つまたは複数の疾患文献特徴、標的文献特徴、および共起文献特徴の混合を含みうる。加えて、または代替として、異なるオフセット時間の各々について抽出された第2の特徴は、1つまたは複数の疾患文献特徴、標的文献特徴、および共起文献特徴の混合を含みうる。
【0049】
態様によれば、本明細書に記載される、すでに訓練された分類器に入力データを提供するために抽出された任意のタイプの特徴は、同じ方法で訓練文献から抽出された同一タイプのそれぞれの訓練特徴に対応する。同様に、本明細書に記載される、分類器を訓練するための入力データを提供するために抽出された任意のタイプの訓練特徴も、すでに訓練された分類器への入力として提供するために同じ方法で文献から抽出された同一タイプのそれぞれの特徴に対応する。
【0050】
態様によれば、文献はソース文献データベースから受け取られる。抽出された特徴は以下を含む:
正規化文献数;正規化文献数は、標的および疾患の識別子を含み、その間の特徴が抽出される時間間隔のうちの1つまたは複数に発行される文献数を示し、該1つまたは複数の時間間隔に発行された、標的または疾患またはその両方の識別子を含む生物医学文献全体に対して正規化される;および/または
コミットメントインデックス;コミットメントインデックスは、疾患と標的の両方の識別子を含む少なくとも2つの文献を発行した著者の数を示し;「コミットメント」または「コミットメントインデックス」を抽出することは、この特徴が研究課題の将来の治療可能性への科学専門家の信頼を示すため、有利となりうる;コミットメントは負の標的疾患対においてよりも正の標的疾患対において絶えず高いことが確認されている;および/または
「治療MeSHカウント」:この特徴タイプは、標的および/もしくは疾患の識別子を含み、MeSH主要副標目「薬物療法(drug therapy)」および「治療的使用(therapeutic use)」を含む文献数を示す。
【0051】
上述した特徴タイプはすべての調査対象特徴のうちで最高の予測力を示すことが確認されている。よって、上記3つの特徴タイプのうちの1つまたは複数に対応する特徴を抽出することによって、高い予測精度が達成されうる。
【0052】
例えば、異なるオフセット時間の各々について抽出された第1の特徴は、正規化文献数と、コミットメントインデックスと、「治療MeSHカウント」の組み合わせを含みうる。加えて、または代替として、異なるオフセット時間の各々について抽出された第2の特徴は、正規化文献数と、コミットメントインデックスと、「治療MeSHカウント」の組み合わせを含みうる。当然ながら、「第1の」特徴および「第2の」特徴の定義により、前記3つの特徴タイプは、「第2の特徴」(累積的特徴)として計算される場合、(間隔別の)「第1の特徴」として計算された場合の同じタイプの特徴として異なる文献セットから計算される。
【0053】
態様によれば、「正規化文献数」、「コミットメントインデックス」、および「治療MeSHカウント」の各特徴タイプは、第1の特徴として、また、特徴抽出のための入力として異なる文献を使用して第2の特徴としても計算される。加えて、または代替として、正規化文献数、コミットメントインデックス、および「治療MeSHカウント」の各特徴タイプは、特徴抽出のための入力として異なる文献を使用することによって、「疾患文献特徴」、「標的文献特徴」および「共起文献特徴」としても計算される。MeSH(medical subject headings、医学件名標目表)の主要副標目は、人間の専門家によって生物医学文献、例えば、MEDLINEアブストラクトに割り当てられた項目名および注釈である。
【0054】
例えば、MEDLINEデータベースをソース文献データベースとして使用することができ、MEDLINEデータベースに格納された表題、アブストラクトおよびメタデータが生物医学文献として使用されうる。
【0055】
態様によれば、抽出された特徴は、以下を含む群の中から選択された1つまたは複数の特徴を含む:
非正規化文献数、非正規化文献数は、標的および/または疾患の識別子を含む文献数を示す;
標的および/または疾患の識別子を含む文献の著者の数;
生物工学または製薬産業と提携した著者の割合、これらの著者は、標的および/または疾患の識別子を含み、その間の特徴が抽出される時間間隔のうちの1つまたは複数に発行される文献の著者である;
標的および/または疾患の識別子を含む文献に含まれる、参照文字列長当たりの遺伝子、化学物質および/または薬物の数;
標的および/または疾患の識別子を含む文献における「第1相」、「第2相」または「第3相」の各相の出現数。
【0056】
上述した特徴の各々または少なくとも一部は、検索文献の異なるサブセットを使用して複数回抽出される。例えば、「第1の特徴」を抽出するために特定の年に発行された検索文献のサブセットが解析され、「第2の特徴」を抽出するために複数の連続した年に発行された検索文献のサブセットが解析される。時間窓またはそのサブセットが範囲とする文献のみが特徴を抽出するために解析される。
【0057】
態様によれば、上述した特徴タイプの各々が第1の特徴として計算され、加えて、特徴抽出のための入力として異なる文献を使用して第2の特徴としても計算される。加えて、または代替として、前記特徴タイプの各々は、特徴抽出のための入力として異なる文献を使用することによって、「疾患文献特徴」、「標的文献特徴」および「共起文献特徴」としても計算される。
【0058】
態様によれば、訓練された分類器はランダムフォレスト分類器である。例えば、RのrandomForestパッケージ(R統計計算ソフトウェア「http://www.r-project.org」)が使用されうる。
【0059】
例えば、薬物は小分子または生物学的製剤である。前記または他の例によれば、疾患はヒトがんまたはヒトがんサブタイプである。
【0060】
態様によれば、本方法は、以下をさらに含む:
E=MeSH#observed/MeSH#maxに従って正規化されたシャノンエントロピーEを計算する工程であって、式中、MeSH#observedは、検索文献のMeSH(「Medical Subject Headings」)主要副標目の数であり、MeSH#maxは、MeSHシソーラスで定義されたMeSH主要副標目の数であり、E=0が、すべての検索文献におけるただ1つのMeSH主要副標目の使用に対応し、E=1は、すべての既存のMeSH主要副標目の等しい使用に対応する、正規化されたシャノンエントロピーEを計算する工程;および
計算されたエントロピーを、標的および疾患に関して実行された生物医学研究の成熟の尺度として使用する工程。
【0061】
本方法は、例えば、折れ線グラフなどのグラフによって、受け取った文献の計算されたシャノンエントロピーEの経時的な発展を出力する工程を含む。グラフは、所与の時間間隔に発行された生物医学文献に割り当てられたMeSH主要副標目の構成を示しうる。計算されたシャノンエントロピーの発展を出力することは有利となりうる。というのは、この情報は人間ユーザが、標的疾患対に関連する研究の成熟度を判断することを可能にしうるからである。
【0062】
別の局面において、本発明は、分類器を訓練する方法に関する。訓練された分類器は、医学研究の結果を予測するように構成される。医学研究は、疾患を治療するために標的へ向けられた薬物の効力を評価する。本方法は、電子システムにおいて実施され、以下の工程を含む:
標的疾患訓練対セットを提供する工程であって、このセットは、その活性の修飾が前記標的疾患対に含まれる疾患を治療することが知られている標的をそれぞれ含む正の標的疾患対を含み、このセットは、その活性の修飾が前記標的疾患対に含まれる疾患を治療しないことが知られている標的をそれぞれ含む負の標的疾患対をさらに含む、標的疾患訓練対セットを提供する工程;
訓練オフセット時間を指定する工程であって、訓練オフセット時間が、標的疾患訓練対に関連した訓練研究の結果が開示された時点の前の時間間隔を示し、各訓練研究が、標的疾患訓練対で指定された疾患を治療するために標的へ向けられた薬物の効力を評価するように設計される、訓練オフセット時間を指定する工程;
訓練オフセット時間に終了する、既定の持続時間の時間窓を指定する工程;
セットの標的疾患訓練対の各々について、
・標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献を受け取る工程;
・受け取った文献のうち、前記時間窓の間に発行された文献から選択的に、複数の訓練特徴を抽出する工程;
指定された訓練オフセット時間について、標的疾患訓練対について抽出された訓練特徴で選択的に、訓練されていない分類器を訓練することによって、訓練された分類器を生成する工程。
【0063】
態様によれば、訓練オフセット時間は、複数の異なる既定の訓練オフセット時間のうちの1つである。本方法は、既定の訓練オフセット時間の各々について、以下の工程を含む:
訓練オフセット時間に終了する、既定の持続時間のさらなる時間窓を指定する工程;
セットの標的疾患訓練対の各々について、
・標的疾患訓練対の標的もしくは疾患または標的および疾患の識別子を含む生物医学訓練文献を受け取る工程;
・受け取った文献のうち、前記さらなる時間窓の間に発行された文献から選択的に、複数の訓練特徴を抽出する工程;
訓練されていない分類器を、抽出された訓練特徴で選択的に訓練することによって、訓練された分類器を生成する工程。
【0064】
態様によれば、時間窓は、複数の時間間隔を含む。本方法は、標的疾患訓練対の各々について以下の工程を含む:
受け取った訓練文献のうち、標的疾患訓練対の標的または疾患の識別子を含む最初に発行された文献の発行日を特定する工程;
複数の時間間隔のうち、特定された発行日を含む1つの時間間隔を特定する工程;
時間間隔のうち、特定された1つの時間間隔に時系列で先行する複数の任意の1つについて抽出されるすべての訓練特徴にゼロ値を割り当てることを含む、複数の訓練特徴を抽出する工程。
【0065】
例えば、特定の標的へ向けられた薬物が承認を得るまで15年で済み、対応する標的疾患対が、20年間の窓を使用する間に分類器を訓練するための訓練標的疾患対として使用される場合、1年〜5年についての特徴はゼロで埋められる。よって、疾患と標的の両方の識別子を含む文献の最初の発行と研究の終了との間の期間が時間窓サイズより小さいものを含む、複数の異なる訓練標的疾患対についてこの手法を使用することが可能である。
【0066】
態様によれば、標的疾患訓練対セットは、複数の対照標的疾患訓練対をさらに含む。対照標的疾患対は、標的疾患対に含まれる疾患を治療するための薬物の標的として使用も試験もされたことがない物質を含むデータセットである。
【0067】
態様によれば、本明細書に記載される態様のいずれか1つによる1つまたは複数の分類器を訓練するための方法は、加えて、生成された1つまたは複数の訓練された分類器を、本明細書に記載される予測方法の態様のいずれか1つにしたがって、疾患を治療するために標的へ向けられた薬物の効力を予測するための方法を行うために使用する工程を含む。
【0068】
別の局面において、本発明は、プロセッサによって実行されると、本明細書に記載される態様のいずれか1つによる方法をプロセッサに行わせる命令を含む不揮発性記憶媒体に関する。
【0069】
別の局面では、本発明は、医学研究の結果を予測するための電子システムに関する。医学研究は、疾患を治療するために標的へ向けられた標的の効力を評価する。本システムは、
標的または疾患またはその両方の識別子を含む生物医学文献を受け取り;
予測の実施前の時間間隔を指示するオフセット時間を指定し;
オフセット時間の開始時に終了する、既定の持続時間の時間窓を指定し;
受け取った文献のうち、前記時間窓の間に発行された文献から選択的に、複数の特徴を抽出し;
生物医学訓練文献セットから抽出された訓練特徴セットで訓練された分類器を提供し、これら訓練文献は、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点の前のオフセット時間の開始時に終了する訓練時間窓内に発行されたものであり;
抽出された特徴を分類器に入力として提供して分類器を実行することによって予測を実施し;
疾患を治療するために標的へ向けられた薬物の効力を予測する分類器の結果を出力する
ように構成された、プロセッサを含む。
【0070】
本明細書で使用される「特徴」とは、1つまたは複数の文献から、あるいは1つまたは複数の文献と関連付けられたメタデータから抽出された定量的特性である。1つまたは複数の文献から直接抽出された特徴とは、例えば、固有表現抽出、一致性評価、テキストの統語的および/または意味的構文解析などのテキストマイニング法を適用することによって文献のテキストから抽出された特徴とすることができよう。1つまたは複数の文献のメタデータから抽出された特徴とは、例えば、文献に注釈として付された著者、発行日、掲載誌のタイプまたはキーワードを解析することによって抽出された特徴である。
【0071】
本明細書で使用される「文献」とは、情報がテキスト形式で提供されるデータセットである。例えば、文献とは、生物学、生物医学もしくは医学雑誌の論文全文、生物学もしくは医学データベースのデータレコード、または電子論文の一部、例えばアブストラクトであってよい。文献には、著者、発行年、キーワード(MeSHタームなど)、他の文献へのリンクなどといったメタデータが割り当てられうる。
【0072】
本明細書で使用される「分類器」とは、予測の結果で対象を分類するための予測を実施するための入力データを処理するように構成された、プログラム論理、例えば、ソフトウェアモジュールやソフトウェアプログラムである。例えば、分類器は、疾患を治療するために標的へ向けられた薬物の効力に関連する医学研究が、前記標的へ向けられた薬物はその疾患を治療できるという結果を有することになることを予測しうる。例えば、分類器は、FDAが、1つまたは複数の研究が薬物の安全性を証明し、疾患の治療における薬物の効力を証明したために、その薬物を承認することになると予測しうる。それによって、分類器はその薬物を、その修飾が特定の疾患の治療をもたらす(可能性が高い)標的へ向けられた物質として分類する。あるいは、分類器は薬物を、その修飾が疾患を治療することが(おそらくは)できない標的へ向けられた物質であるものとして分類してもよい。
【0073】
本明細書で使用される「標的」または「薬物標的」とは、特定の疾患に結びついた、その活性を薬物によって修飾することができ、標的の活性の修飾が疾患を治療するための機構である生物内の定義された分子または構造、典型的にはタンパク質である。
【0074】
本明細書で使用される「時間窓」とは、開始時点および終了時点によって特徴付けられる範囲を有する時間間隔であり、終了時点は特定の時点に対するオフセット時間によって指定される。前記「特定の時点」は、例えば、予測が実施される時点、例えば、分類器の訓練フェーズで、分類器を入力データに対して実行するために分類器に入力データが提供される時点とすることができ、訓練特徴が抽出される文献を選択するのに使用される時間窓の終了時点は、訓練標的疾患対の特定の標的の活性の修飾が前記疾患を治療することができるか否かがそれによって明らかになる訓練医学研究が発行された特定の時点に対する訓練オフセット時間によって指定される。
【0075】
本明細書で使用される「薬物」または「医薬品」とは、吸入され、注射され、煙として吸い込まれ、消費され、皮膚上のパッチを介して吸収され、または舌下で溶解されると、身体に生理的変化を生じさせる、食物以外の任意の物質である。薬物は、典型的には、薬物標的の活性を修飾することによって疾患を治療、治癒、予防、診断、または健康を促進するのに使用される。薬物は、限られた持続時間にわたって、または慢性疾患に定期的に使用されうる。
【0076】
本明細書で使用される「疾患」とは、生物の一部または全体に影響を及ぼす構造または機能の異常な状態、不調である。疾患は、感染症など、外部の原因に由来する要因によって引き起こされる場合もあり、自己免疫疾患やがんなど、内部の機能不全によって引き起こされる場合もある。また本明細書で使用される疾患は、特定の形態の疾患、例えば、特定のバイオマーカ発現パターンを特徴とする乳がんや肺がんなどの特定の形態のがんを指す場合もある。
【0077】
本明細書で使用される「医学研究」とは、特定の標的へ向けられた、疾患の治療として適用される薬物が、生物群において、例えば、患者群や実験動物群においてどのように働くかの科学的考察である。医学研究は、例えば、物質の生化学的効果に関する基礎研究を行うための研究プロジェクトのコンテキストで行われる研究とすることもでき、前臨床試験として行うこともでき、かつ/または第1相、第2相、または第3相の臨床試験として行うこともできる。医学研究は、例えば、特定の薬物についてのFDAの承認を得るために行われる研究とすることができ、研究の結果が開示される日は、研究の間に生成されたデータに基づいて特定の薬物が承認されるか否かをFDAが発表する日に対応しうる。
【0078】
本明細書で使用される「生物学的製剤」とは、タンパク質、酵素、アミノ酸などの、生細胞によって生成された化合物である。本明細書で使用される「小分子」とは、生物学的プロセスを調節するのに役立ち、または調節すると思われる低分子量(<900ダルトン)の有機化合物である。
【0079】
本明細書で使用される「標的疾患対」とは、特定の標的と特定の疾患との、例えばデータオブジェクトの形態で表された、組み合わせである。訓練標的疾患対は、標的と疾患との公知の生物医学的関係により、または公知のそのような関係の欠如により使用される標的疾患対であり、訓練標的疾患対は、1つまたは複数の分類器を訓練するための訓練データセットの一部として使用される。
【0080】
本明細書で使用される「電子システム」とは、記憶媒体と、記憶媒体に格納されたデータを処理するための1つまたは複数のプロセッサとを含むデータ処理システムである。例えば、電子システムは、標準的なコンピュータシステム、サーバシステム、またはクラウド・コンピュータ・システムとすることができる。
【0081】
本明細書で使用される疾患または標的の「識別子」とは、疾患または標的の名前または同義語である。
【0082】
以下で、本発明の態様を、例示にすぎないが、図面を参照としてさらに詳細に説明する。
【図面の簡単な説明】
【0083】
【図1】標的疾患対についての発行件数の増加を示す折れ線グラフである。
【図2】1つまたは複数の分類器を訓練するように、かつ/または1つまたは複数の訓練された分類器を使用して特定の標的へ向けられた薬物の効力を予測するように構成されたシステムのブロック図である。
【図3】検索文献のサブセットを示すベン図である。
【図4】図4A〜図4Cは、FDA承認または失敗前の標的指向抗がん剤に関連した文献から抽出された異なる特徴の傾向を示す図である。図4Dは、予測のF値を示す図である。
【図5】3つの異なるクラスの標的疾患対について抽出された特徴を示す図である。
【図6】一態様による予測方法を示す流れ図である。
【図7】図7aは、FDA承認前の標的疾患対についての出版物の傾向を示す図である。図7bは、5年のオフセット時間を有する時間窓を示す図である。
【図8】2年および3年のオフセット時間を有する時間窓を示す図である。
【図9】経時的なMeSH主要副標目の分布の変化を示すグラフである。
【図10】3つの異なるタイプの分類器のF値の時間依存性を示す図である。
【図11】3つの異なる標的疾患対について検索された生物医学文献から抽出された特徴の傾向を示す図である。
【発明を実施するための形態】
【0084】
詳細な説明
図1は、標的指向がん療法の分野における標的疾患対についての科学文献における発行件数の増加を示す折れ線グラフ100である。x軸は、20年を範囲とする時間スケールを表し、y軸は、所与の標的疾患対の標的と疾患両方の識別子を含む1年ごとの発行件数を示す。特定の疾患、例えば特定のがんタイプのコンテキストで、その疾患と共に標的分子を記述する生物医学文献、例えば科学論文の最初の出現の後に、この主題に関する絶え間ない「継続的研究」が続く。さらに、以下のフェーズを含みうる製薬研究開発プロセスが開始する:その活性の修飾が疾患を治療しうる標的を特定するための標的特定/確認(TI/V)、リード化合物(IL)の特定(標的の活性を修飾するのに特に適した、または有効な薬物または薬物バージョンを特定するプロセス)、リード最適化(LO)(標的の活性を修飾する潜在的薬物を最適化するプロセス)、疾患を治療するために標的へ向けられた特定の薬物についての前臨床試験(PC)、第1相、第2相および第3相臨床試験(P1、P2、P3)、ならびに承認および発売(AL)。よって、基礎研究および製薬研究開発は、特定の疾患のコンテキストにおける標的の様々な局面に関して発表することによって文献中にシグナルを生成する(「指示」とも呼ばれうる)。
【0085】
医学研究の終了時に、薬物が米国食品医薬品局(FDA)などの政府当局によって承認される場合もあり、当局が疾患の治療について薬物を承認しない判断を発行する場合もある。加えて、または代替として、医学研究の終了時に、結果が科学雑誌に発表される場合もある。
【0086】
図2は、1つまたは複数の分類器を訓練するように、かつ/または1つまたは複数の訓練された分類器を使用して疾患を治療するために特定の標的へ向けられた薬物の効力を予測するように構成されたシステムのブロック図である。システムは、例えば、図6に示す方法を行うように構成された1つまたは複数のプログラム論理を含む。以下では、図2および図6を参照する。
【0087】
電子システム200は、複数の生物医学文献D1、D2、...、Dnを含むデータベース202を含むか、またはデータベース202に機能的に連結されている。例えば、データベース202は、2千4百万件を超える生物医学アブストラクトを含むMEDLINEデータベースのローカルコピーであってもよい。コンピュータシステムは、1つまたは複数のプロセッサ204と、主メモリ206と、不揮発性記憶媒体210と、ユーザが、1つまたは複数の分類器を訓練するプロセスおよび/または1つまたは複数の分類器を医学研究の結果を予測するのに使用するプロセスを制御することを可能にするためのインターフェース208とを含む。電子システムは、例えば、コンピュータシステム、例えばサーバや標準的なデスクトップPCであってよい。システムは、医学研究の結果を予測するように、かつ/または訓練されていない分類器224から1つまたは複数の機械学習ベースの分類器を生成するように構成された1つまたは複数のプログラムモジュール216、218、226、230を含む。医学研究は、疾患を治療するために標的へ向けられた薬物の効力を評価する。プロセス全体は、訓練データセットをサンプリングし、分類器228のうちの1つによって生成される予測の結果を生成し、出力するために、制御モジュール232によって調整、制御され、文献検索モジュール216、特徴抽出モジュール218、訓練のためのいくつかのさらなるモジュールおよび訓練されていない分類器と共に動作しうる。
【0088】
第1の工程602で、文献検索モジュール216は、複数の生物医学文献214を受け取る。複数の受け取った文献は、a)標的の識別子またはb)疾患の識別子またはc)標的と疾患の識別子を含む。検索文献は、後で処理するためのサブセットとしてデータベース202の異なるテーブルに格納することもでき、ファイルとして不揮発性記憶媒体210に格納することもできる。
【0089】
さらなる工程604で、制御モジュール232および/またはユーザはオフセット時間を指定する。オフセット時間は、予測の実施時点の前の時間間隔を指示する。例えば、図6に示すすべての工程602〜614が特定の日に実行される場合、その特定の日が「予測時点」である。いくつかの態様では、予測において入力として使用される特徴のうちの少なくともいくつかが先に抽出されてもよく、工程612を行う時点が、予測を実施する時点として使用される。優先的に、複数の異なるオフセット時間が定義される。例えば、予測の前の1年、予測の前の2年、...、予測の前の9年および予測の前の10年の、10の異なるオフセット時間のセットが定義されうる。
【0090】
さらなる工程606で、制御モジュール232および/またはユーザは、既定の持続時間、例えば20年の、時間窓を指定する。時間窓は、オフセット時間の開始時に終了する。オフセット時間の各々について、それぞれの時間窓を定義することができる。図7b、図8aおよび図8bに、異なる時間窓704、時間706および時間708を示す。
【0091】
さらなる工程608で、制御モジュールは、受け取った文献のうち、前記時間窓の間に発行された文献から選択的に、複数の特徴222(「試験特徴」とも呼ばれる訓練特徴220と区別して)を抽出する。この工程は、工程606で定義された時間窓の各々について繰り返され、受け取った文献の異なるサブセットを入力としてそれぞれ使用し、異なる特徴セットを抽出する(そのため、少なくとも時間間隔ごとに抽出された特徴を前記特徴セットの複数の特徴セットが共有することができる)。
【0092】
工程610は、訓練特徴セット220.3で訓練された分類器226.3を提供する工程を含む。訓練特徴は、訓練標的疾患対に関する1つまたは複数の訓練研究の結果が開示された時点OC前のオフセット時間の開始時に終了する訓練時間窓内に発行された生物医学訓練文献セットから抽出されたものである。定義された窓および対応する試験特徴の各々について、それぞれの訓練特徴セットで訓練されたそれぞれの分類器が提供される。例えば、そのオフセット時間が工程612の予測時点の前の3年間である窓には、同じサイズの、公知の結果を有する研究(「訓練研究」)の結果が開示される前の3年間のオフセット時間を有する時間窓内で発行された訓練文献セットから抽出された訓練特徴220.3で訓練された分類器226.3が取得される。そのオフセット時間が工程612の予測時点の前の4年間である窓には、同じサイズの、公知の結果を有する研究の結果が開示される前の4年間のオフセット時間を有する時間窓内で発行された訓練文献セットから抽出された訓練特徴220.4で訓練された分類器226.4が取得される(図8aおよび図8b参照)。よって、10の異なる窓について、10のそれぞれの訓練された分類器が提供されうる。
【0093】
工程612で、提供された分類器の各々が、対応する抽出された特徴222.3、224を分類器の入力として使用して実行される。分類器は、入力特徴222に基づく、疾患を治療するために標的へ向けられた薬物の効力の予測を実施する。分類器に「対応する」特徴セットは、その幅および時間オフセットが、前記分類器を訓練するための訓練特徴が抽出された文献を特定するのに使用された訓練時間窓と同一である時間窓の間に発行された文献から抽出された試験特徴セットである。
【0094】
工程614で、抽出された分類器の各々が、疾患を治療するために標的へ向けられた薬物の効力を予測するそれぞれの結果228を出力する。
【0095】
最後に、複数の分類器226.1、...、226.10(定義された時間窓ごとに1つ)が順次に、または並列に抽出された場合、複数の実行された分類器によって出力された結果は、組み合わせ結果を生成するために制御モジュールによって組み合わされる。例えば、第1の分類器は、医学研究の結果が、標的へ向けられた薬物は疾患を治療するのに使用することができる、というものである71%の尤度を計算しうる。第2の分類器は83%の尤度を計算しうる。第3の分類器は76%の尤度を計算し、以下第10の分類器まで同様としうる。組み合わせ尤度を、例えば、個々の分類器によって計算されたすべての尤度の中央値または平均値として計算することができる。あるいは、各々分類器の出力は、医学研究の結果が、薬物が疾患の治療において有効である(また任意でさらに安全でもある)か否かの2値の「はい」または「いいえ」の予測であってもよい。すべての分類器の最終的な組み合わせ結果は、投票プロセスを行うことによって計算されてよく、最終的な組み合わせ結果は、分類器の過半数によって出力された2値の「はい」または「いいえ」の予測と同一であってよい。
【0096】
任意で、システムは、訓練文献および訓練標的疾患対を含む訓練データセットに対する訓練された分類器の精度を自動的に評価する精度評価モジュール230を含んでいてもよい。精度評価モジュールによって得られた結果は、分類器の予測精度に及ぼす個々の特徴の影響および前記特徴の予測力を判断するのに使用することができる。
【0097】
上記工程は、現在使用中の窓によって定義された文献セット224(「試験文献」)から抽出された入力特徴222に関して適用される1つまたは複数の訓練された分類器226がすでに存在する状況について説明されている。
【0098】
分類器の訓練されていないバージョン224から訓練された分類器を生成するための訓練フェーズもこれと同様に行われる:複数の訓練標的疾患対が定義され、前記対の少なくともいくつかについて、医学研究(本明細書では訓練研究と呼ぶ)の正または負の結果が知られている。訓練フェーズで使用される窓(「訓練時間窓」)は、研究の結果が開示される日に対して、その日の前に定義されるオフセット時間を使用して定義される。訓練標的疾患対ごとに、訓練標的疾患対の標的もしくは疾患に言及しているか、またはその両方に言及している文献セットが検索される。各訓練時間窓は、訓練特徴セットを抽出するのに使用される受け取った文献のサブセットをそれぞれ定義する。特定のオフセット時間に、複数の異なる訓練標的疾患対について検索された複数の文献について抽出された訓練特徴が、訓練研究の結果に関する情報と組み合わせて、前記オフセット時間に固有の訓練された分類器を生成するために訓練されていない分類器に入力される。
【0099】
以下で、訓練された分類器セットを生成し、訓練された分類器を、特定の疾患を治療するために特定の標的へ向けられた薬物の効力を予測するための具体例を示す。
【0100】
複数のクラスのT-DI対を含む訓練データセットの定義
図5に記載されるT-DI対のクラスと同様に、少なくとも2つのクラスの標的疾患対を収集した。(1)承認された標的指向抗がん剤に対応する標的疾患対、および(2)第2相/第3相臨床試験で失敗した標的指向抗がん剤に対応する標的疾患対。任意で、承認された、または第1相以降の臨床試験で試験されたいかなる標的指向抗がん剤にも対応しない第3のクラス(3)の標的疾患対を編集することもできる。
【0101】
より正確には、クラス1は標的(T)疾患(DI)対を含み、Tは、疾患DIに対して承認に成功した抗がん剤の標的である。これらのT-DI対を得るために、2014年9月に検索された国立がん研究所(national cancer institute(NCI))ウェブサイト(www.cancer.gov)と米国食品医薬品局(FDA)のウェブサイト(www.fda.gov)とからのデータを使用して、FDA承認標的指向抗がん剤のリストを生成した。承認された薬物のすべての標的Tおよび関連した疾患DIのリストを生成した。T-DI対の薬物は小分子および生物学的製剤を含んでいた。これらのT-DI対について、FDA承認年をクラス1事例を含むT-DI行列に格納した。例えば、標的「ERBB2」および疾患「乳がん」では、承認年は「1998」(薬物Trastuzumab(Roche, Basel, Switzerland)を標的とするERBB2(Her2)のFDA承認年)であった。T-DI組み合わせについて複数の薬物承認がある場合には、最も早い承認年を「判断時点」OCとして使用した。所与のデータ記憶装置について複数の標的(T1、T2...)が公知である場合には、前記T-DI対の最多の発行件数を有する標的を使用した。未知の標的または4つ以上の標的を有する薬物は、JoshiおよびMillettiの手順に従って除外した(Joshi, V. and Milletti, F.(2014)“Quantifying the probability of clinical trial success from scientific articles”, Drug discovery today 19(10), 1514-1517)。
【0102】
FDA承認標的指向薬およびそれぞれの疾患を含む42の固有の正の標的疾患訓練対を取得した。加えて、第2相/第3相臨床試験で失敗した標的指向抗がん剤に関連した74の負の標的疾患訓練対も取得した。
【0103】
失敗した第2相/第3相臨床試験を見つけるために、PharmaprojectsデータベースおよびTrialTrove(Citeline, Informa, London, UK)データベースおよび米国国立衛生研究所の臨床試験レジストリ(www. clinicaltrials.gov)を使用した。この探索は2014年12月に行った。DIの治療としてTを標的とする薬物の失敗は、治験の結果「終了、効力の欠如」、「終了、安全性/副作用」、または「完了、負の結果/主要エンドポイントを満たさず」で定義した。薬物組み合わせの場合、それぞれの疾患の治療としてまだ承認されていない新しい標的薬物だけを考慮した(すなわち、薬物1が、疾患DIのための治療として以前に承認された薬物2との組み合わせで承認される場合、新しい薬物1の標的Tのみが考慮される)。成功しなかった治験が見つかった場合、失敗の年を各T-DI対の分類と一緒に格納した。複数の失敗した治験の場合には、最も早い年を取った。
【0104】
クラス3は、どのような標的指向抗がん剤にも対応せず、臨床試験に含まれたことがなく、すでに承認されてもいない対照T-DI対セットを表す。これらのT-DI対は、クラス1およびクラス2のT-DI対で使用したのと同じ疾患を使用して決定した。標的Tとなるタンパク質は、ヒトタンパク質アトラスプロジェクト(Human Protein Atlas project)(http://www.proteinatlas.org)から取得した。ここで、FDA承認薬物標的としてラベル付けされたものがないがん関連タンパク質のサブセットを選択した("protein_class:Cancer-related genes NOT protein_class:FDA approved drug targets")。このサブセットは2015年2月に取得した。ヒトタンパク質アトラスにおけるがん関連遺伝子セットはPlasmaからのデータの組み合わせである。
【0105】
Proteome Institute、がん特異的遺伝子の包括的な出版カタログであり、ヒトがんにおける体細胞突然変異のカタログ(COSMIC, cancer.sanger.ac.uk)。この1555個のタンパク質のセットの中から、50個のタンパク質を標的としてランダムに選択し、複数の異なる疾患と組み合わせて、「対照T-DI対群」とも呼ぶ、第3のクラスのT-DI対を形成した。対照群は299のT-DI対を含んでいた。これら50個のタンパク質のいずれも確実に臨床試験で薬物標的として使用されたことがないように手作業での検証を行った。
【0106】
複数のT-DI対についての訓練文献の検索
最初に、訓練疾患標的対の疾患および標的の名前および同義語を、Entrez Gene、UniprotおよびPantherを含む複数のデータソースから導出した用語を組み合わせることによって検索した。疾患については、MeSH用語とNCIシソーラスを組み合わせた用語を、疾患名およびそれらの同義語を抽出するのに使用した。フォルスポジティブを生じることが経験的に知られている用語、例えば、別のコンテキストでは頭字語でもある用語は、同義語のリストから除外した。各問合せの出力は、使用された探索用語についてのヒット、すなわち、標的名および標的名の同義語または疾患名および疾患名の同義語からなる行を有するテキストファイルである。図3のベン図に、特定の標的について検索された文献セットが複数の異なる標的疾患対の特徴抽出に使用されうることを示す。これにより性能が高まりうる。というのは、例えば、2つ以上のT-DI対が同じ標的または同じ疾患を共有する場合に異なるT-DI対のために同じ文献セットを複数回検索しなくて済むからである。
【0107】
クラス1およびクラス2からと任意でクラス3(対照)からの訓練T-DI対ごとに、関連した科学文献をMEDLINEから検索した。この目的で、MEDLINEコーパス(全部で約23 106件の出版物、2014年9月現在)を、訓練T-DI対の各々の標的および/または疾患の少なくとも1つの識別子(名前または同義語)に言及している文献を見つけるためにテキスト・マイニング・プラットフォームI2E(Linguamatics, Cambridge, United Kingdom)で処理した。標的ごと疾患ごとに、1回の問合せを実行し、1つの結果ファイルを生成した。TまたはDIのそれぞれのエンティティの探索は、この例示的手法において「文献」をそれぞれ構成する表題およびアブストラクトに制限した。次いで、各々訓練T-DI対の疾患の識別子を含む文献および標的の識別子を含む文献を、各対の標的および疾患についてそれぞれ検索された出版物結果ファイルにおけるPubMed IDの交差を計算することによって取得した。
【0108】
メタデータ処理および富化
各々文献はメタデータを含む。メタデータは、例えば、発行年、PubMed ID、および主要MeSH副標目を含む。加えて、メタデータを、文献の著者名を解析し、製薬会社または生物工学会社との生物医学者の公知の関係を含むデータベースにおいてルックアップを行うことによって、会社名を含む文字列で自動的に補足した。加えて、文献において遺伝子および化学物質を特定し、文献のメタデータを、文献で言及されている遺伝子および化学物質に関連した生物医学情報で富化するために、前記遺伝子および化学物質のメタデータを、GeneViewなどのさらに別のデータソースから検索した。
【0109】
特徴抽出
次いで、検索文献および文献それぞれの(任意で補足された)メタデータを使用して、既定の特徴タイプセットの特徴fi(t)を計算する。iは、第iの特徴タイプを表し、tは、既定の相対時点セットに対応する「相対時点」を表す。特徴は、オフセット時間dの既定のセットの各々について計算され、したがって同様に、fdi(t)として表すことができ、ここで、dは、相対時点tが従属するオフセット時間を表す。
【0110】
正の訓練T-DI対と負の訓練T-DI対(すなわち、クラス1とクラス2の訓練T-DI対)を比較するために、それぞれの「判断時点」OC(研究の結果「OC」が開示された時点、例えば、薬物承認や臨床試験の失敗)に対する相対時点tを計算した。複数の既定のオフセット時間d(d∈{1...10}年)が、相対時点t、すなわち、t=y-OCのセットを計算するように使用され、yは、発行の年であり、OCは、判断イベントの時点である。
【0111】
計算された相対時点tごと、複数の既定の特徴タイプiの各々について、特徴fi(t)を、相対時点tを範囲とする年またはそれ以前に発行された文献から計算し、iは、相対時点tにおける第iの特徴を表す。
【0112】
優先的に、正の訓練T-DI対および負の訓練T-DI対は、TとDIとが共起する最初の文献から承認または失敗の判断時点OCまでに及ぶ平均タイムスパンが正の訓練T-DI対と負の訓練T-DI対とで有意な差を示さないように選択される。これにより、1つのクラスの時間オフセットが高くなる可能性がなくなる。
【0113】
この事例では、異なるT-DIクラスについて以下の知見が得られた:クラス1タイムスパン中央値:15.5年、第25のパーセンタイルおよび第75のパーセンタイル:10.25年および22年;n=42;クラス2タイムスパン中央値:16年、第25のパーセンタイルおよび第75のパーセンタイル:10.25年および16年;n=74。どちらのT-DIクラスについても有意な差異は確認されなかった(p<0.05、マン・ホイットニー・ウィルコクソン(Mann-Whitney-Wilcoxon)検定、両側検定)。
【0114】
さらに、正の訓練T-DI対および負の訓練T-DI対は、(研究の結果を開示する)判断の絶対年が正の訓練T-DI対と負の訓練T-DI対とで大きく異ならないように選択される。これにより、基礎をなすパターンが時間と共に変化する事例についての潜在的なバイアスが低減されうる。
【0115】
この事例では、異なるT-DIクラスについて以下の知見が得られた:クラス1発行年中央値:2009、第25のパーセンタイルおよび第75のパーセンタイル:2004および2012;n=42;クラス2発行年中央値:2008、第25のパーセンタイルおよび第75のパーセンタイル:2006および2010;n=74;どちらのT-DIクラスについても有意な差異は確認されなかった(p<0.05、マン・ホイットニー・ウィルコクソン(Mann-Whitney-Wilcoxon)検定、両側検定)。
【0116】
加えて、「対照」T-DI対クラス3のT-DI対をクラス1およびクラス2のT-DI対と比較した。所与のT-DI対の標的と疾患の両方に言及している文献の最初の発行後の時間を時間的に前方へ解析し、t=y-y0に従って相対時点tを決定した。式中、yは、文献の発行の年であり、y0は、前記最初の発行の年である。
【0117】
全T-DIクラスについて、時間窓は20年であった(すなわち、クラス1とクラス2を比較するための承認または失敗の前の20年と、クラス3をクラス1およびクラス2とそれぞれ比較して解析するための最初の発行後20年)。
【0118】
所与の年にT-DI対の出版物がなかった場合、累積的な「第2の」特徴(例えば、累積発行件数)を発行があった前年の値に設定し、非累積的な(「第1の」)特徴値(例えば、特定の年の発行件数)を0に設定した。クラス1またはクラス2のT-DI対の最初の発行の年から承認または失敗までに及ぶタイムスパンが20年未満であった場合、最初の発行に先行する各年の特徴値を0で埋めて、すべての時間窓が正確に20年の長さを有するようにした。
【0119】
クラス1対クラス2のT-DI対について導出された訓練特徴を、いくつかの機械学習手法、すなわち、単純ベイズ、決定木、ランダムフォレスト、サポート・ベクトル・マシン、および2値ロジスティック回帰を使用する分類器のセットを生成するための訓練セットとして使用した。薬物の承認または失敗の開示の時点OCまでのオフセット時間(「距離」)dに依存する特有の特徴を見つけるために、20年の時間窓の間に発行された文献から抽出された特徴を使用して10の異なる分類器を訓練し、時間窓を、判断時点OCの前の異なる値のオフセット時間d(d∈{1...10}年)でシフトした。判断時点前のd年の間に発行された文献に含まれるデータは省いた。20年の時間窓は、既定の長さの時間間隔Iのシーケンスを含み、例えば、1年をそれぞれ範囲とする20の時間間隔のシーケンスである(図8参照)。前記時間間隔の各々はそれぞれの相対時点tに対応する。
【0120】
より形式的には、判断時点OCで承認または失敗が知られる特定のT-DI対について、(判断時点に対する、判断時点の前の)相対時点tへの変換後に、それぞれの時間間隔Iに対応する複数の異なる相対時点tの特徴値fi(t)を、t=Δt-w-d、Δt∈{1,...,w}として計算し、式中、wは、時間窓内の時間間隔の数であり、それらを使用して第dの分類器を訓練した(図8参照)。20年を範囲とし、20の「1年の」時間間隔を含む時間窓について、特徴が抽出される相対時点は、t=Δt-20-d、Δt∈{1,...,20}である。
【0121】
図10に、標的薬物の承認を予測する3つの異なるタイプの分類器のF値の時間依存性を示す:(B)ランダムフォレスト分類器。(C)決定木分類器。(D)サポート・ベクトル・マシン(SVM)分類器。ベースラインとして、訓練例の公知の事前分布を使用して推測することによって得られたF値が示されている。アステリスクは有意な差(p<0.05、ウェルチのt検定、両側検定)を示している。エラーバーは、平均値の標準誤差を表す。ランダムフォレスト分類器が最も高い精度を示すことが観測されている。これは驚くべき観測である。というのは、ランダム分類器は正確ではないことが観察されている(Hastie, Trevor;Tibshirani, Robert;Friedman, Jerome 2008“The Elements of Statistical Learning”, 2nd ed., Springer, ISBN 0-387-95284-5, p.352)からである。
【0122】
特徴
以下では、特定の標的へ向けられた特定の薬物が疾患を治療できるか否かの問題に関して十分な、良好な、または高い予測力を有することが確認されている複数の特徴について説明する。これらの特徴は異なる特徴クラスに属する。各々特徴クラスは、特徴の1つまたは複数の実現値のセットであり、以下に、特徴クラスおよび特徴を記載する。特徴記号の上付き文字は特徴クラスに対応する:
・特徴下付き文字「TDI」は、T-DI文献セット(すなわち、標的と疾患の両方に言及している検索文献のサブセット)からの出版物を使用して得られた特徴(「共起文献特徴」)に対応する。
・下付き文字Tは、(疾患にかかわらず)少なくとも標的に言及している文献から抽出された特徴(「標的文献特徴」)に対応する。
・下付き文字DIは、(標的にかかわらず)少なくとも疾患に言及している文献から抽出された特徴(「疾患文献特徴」)に対応する。
・下付き文字yは、1年の間に発行された文献からのみ抽出された特徴を表し、よって、「第1の特徴」を表す。図8では、第1の特徴は「FA」で表されている。
・下付き文字「c」は、本明細書では「第2の特徴」とも呼ぶ、累積的特徴を表し、その発行日が、時間窓内にあり、その特徴が計算される相対時点tを含む年の前またはその年にある検索文献からデータを抽出し、抽出されたデータをまとめることによって計算される。図8では、第2の特徴は「FB」で表されている。
【0123】
特徴下付き文字として表されない場合、T-DI文献セットが使用され、特徴は1年ごとで計算された(「第1の特徴」)。
【0124】
1.特徴クラス「論文数」または「文献数」:FC
特徴:fCTDIy、fCTDIc、fCTDIc、fCTy、fCTC、fCDIy、fCDIc
T-DI対の疾患と標的の識別子を含む(1年ごとおよび累積的な)文献の数n1は、n1(T,DI)=|T∩DI|に従って特徴として決定される。
加えて、(疾患識別子の出現にかかわらず)少なくとも標的に言及している文献の数n2、n2(T)=|T|も、特徴として抽出される。
さらに、(標的識別子の出現にかかわらず)少なくとも疾患に言及している文献の数n3、n3(DI)=|DI|が、特徴として抽出される。
【0125】
2.特徴クラス「正規化文献(論文)数」:FN
特徴:fNTDIy、fNTCIc、fNTy、fNTc、fNDIy、fNDIc
標的または疾患の識別子を含む文献の和集合の文献の総数n4、n4=|T∪DI|によって正規化された文献数n1=|T∩DI|:
【0126】
3.特徴クラス「著者」:FA
特徴:fAay、fAac、fAuy、fAuc、fAdy、fAdc、fAnc
著者の絶対数(特徴下付き文字「a」)、固有の著者(特徴下付き文字「u」)、複数の出版物を有する著者(特徴下付き文字「d」)、および1論文当たりの著者の平均数(特徴下付き文字「n」)を測定する特徴を包含する。
【0127】
4.特徴クラス「研究コミットメント」:FR
特徴:fR1y、fR1c、fR2y、fR2c
その研究に関する複数の論文を発行した著者の割合によって近似された、標的疾患組み合わせに関する研究を能動的に行っている人々の数のヒューリスティック。
変形1:
Aは、特定のT-DI組み合わせのすべての著者のセット、Rは、疾患と標的の両方に言及している複数の文献を有する著者のサブセット(特徴下付き文字1)。
変形2:
f(X)は、それぞれのセットAまたはセットRにおける著者xの発行件数
(特徴下付き文字2)。
【0128】
5.特徴クラス「産業関係」:FI
特徴:fI
文献のメタデータに少なくとも1つの製薬会社または生物工学会社の識別子を含む文献の割合。
【0129】
6.特徴クラス「MeSH副標目」:FM
特徴:fMs
主要MeSH副標目(限定子とも呼ぶ)の分布。MeSHには、使用されるMeSH用語の特定の局面を記述するのに使用される全部で83の副標目がある(数値特徴下付き文字s、s∈{1...83})。
【0130】
7.特徴クラス「MeSH限定子の正規化シャノンエントロピー」:FE
特徴:fE
使用されたMeSH用語の不均質性を定量化する正規化されたシャノンエントロピー。すべての副標目の等しい確率(p=1/N)S/Smax∈{0...1}の場合のシャノンエントロピーSmaxで正規化された、N=83の主要MeSH副標目の頻度のシャノンエントロピー
(pi=1/ni、niは、第iの副標目が文献セットにおいて見つかった回数を表す)。この事例では、Smaxは83であるが、この数は、エントロピーを計算するのに使用されるシソーラスに依存して異なりうる。
S/Smax=1は、副標目の完全に均質な分布(すなわち、主題の非常に広い分布を有する文献)を表し、S/Smax=0または極小は、副標目の非常に不均質な分布(すなわち、すべての文献が同一の主題を有する)を表す。
【0131】
8.特徴クラス「生物医学用語数」:FT
特徴:fTh、fTd、fTg
参照文字列長に対する、例えば、1000文字語列に対する、文献(例えば、出版物のアブストラクト)で言及されている化学物質数(特徴下付き文字h)、薬物数(下付き文字d)および遺伝子数(下付き文字g)。
【0132】
9.特徴クラス「相用語数」:FP
特徴:fPp1、fPp2、fPp3
T-DI対の総文献数に対して正規化された、「第1相」、「第2相」または「第3相」(および同義語)に言及している文献数(特徴下付き文字p1、p2、p3)。
【0133】
上述した特徴のうちのいずれか1つを、1つもしくは複数の分類器を訓練するための訓練特徴として、かつ/または特定の疾患を特定の標的へ向けられた薬物によって治療することができるかどうか判断するための臨床研究の結果を予測するための試験特徴として他の特徴と共にまたは組み合わせて使用することができる。
【0134】
これらの比較は図4に示すいくつかの興味深い知見につながった。図4Aに、FDA承認の9年前から、承認されたT-DI対のクラスが、最終的に失敗した対と比較して著しい文献数の増加を示していることを示す。標的と疾患の事前頻度を考慮に入れる正規化文献数を使用した場合、差は、承認/失敗までのさらに大きい時間的距離についてさらに一層顕著になる(図4B)。図4Cに、個々の著者がT-DI対に関して発行した回数を測定する、承認された薬物のコミットメントスコアが、失敗した薬物のものよりも著しく高く、その差が、FDA承認の3連続年前に顕著になることを示す。経時的なMeSH主要副標目の分布を解析すると同等に興味深いパターンが現れる。特に、副標目「薬物療法」および副標目「治療的使用」は、非承認薬物についての論文よりも成功した標的薬物に言及している論文に対して著しくより頻繁に注釈付けされている(図5D)。
【0135】
他の特徴もまた、両クラス間で著しく異なる(図11)。典型的には、これらの差は、産業関係(図11G)や遺伝子言及数(図11K)の場合などに、承認または失敗の数年前に目に見えて明確になる。特定の年のデータに基づく特徴は、それらの累積的な特徴と著しく異なることがより多い(例えば、図11A、図11B)。これは、情報の蓄積により、いくつかのタイムスパンにおける有意シグナルに、他のタイムスパンからの非有意シグナルが混ざることに起因する。加えて、小分子薬物と生物学的薬剤との間の発表パターンの潜在的差異も、両方の薬物クラスを別々に解析することによって解析した。どちらも同様の特徴傾向を示し、それによってそれらの組み合わせ解析が正当化される。
【0136】
一例によれば、d年間での薬物承認を予測するために、OCのd年前までの20年の間隔からの特徴を抽出した(図7、図8)。オフセット時間dごとに別々の分類器を訓練し、10分割交差検証を使用して評価した。分類方法のうちの2つ(ランダムフォレストおよび決定木、図10)についてより短い距離dでよりよい分類性能に向かう明確な傾向が確認された。これらの分類器は、訓練データにおける成功および失敗の事前分布に基づく結果を推測するベースラインよりもはるかに上手く働いた。
【0137】
観測された最善の機械学習法は、例えば、その開示全体が参照により本明細書に含まれる、Breiman, L(2001):“Random forests”, Machine learning 45(1), 5-32に記載されるランダムフォレスト分類器を使用したものであった。
【0138】
ベースラインのF値(F≒0.36)と比較して、この分類器は、薬物の運命に関する正式な判断のすでに5連続年前に著しく上首尾に働いた。F値は、10年前にF=0.45±0.08(平均値±平均値の標準誤差)から開始し(精度、A=0.58±0.06)、判断の1年前にF=0.67±0.05まで増加した(A=0.73±0.04)。
【0139】
少なくとも1つの正規化発行件数、コミットメント、およびMeSH用語「薬物療法」および「治療的使用」の出現の組み合わせ抽出をすることによって、特に高い予測精度が、特徴抽出時の低計算量で達成されうる。
【0140】
図3に、4つの異なる標的疾患対(T1-DI1)、(T1-DI2)、(T2-DI1)、(T2-DI2)について検索された文献セットのベン図を示す。図において、T1は第1の標的を表し、DI1は第1の疾患を表し、T2は第2の標的を表し、DI2は第2の疾患を表す。標的(T)の少なくとも1つの識別子を含む文献を検索し、疾患(DI)の少なくとも1つの識別子を含む文献を検索し、それらを交差させてT-DI共起を有する出版物を見つけることによって、特定の標的疾患対の標的および疾患の識別子を含む文献を特定した。
【0141】
図4A〜図4Cに、FDA承認または第2相もしくは第3相での失敗前の標的指向抗がん剤に関連した生物医学文献から抽出された異なる特徴の傾向を示す。医学研究の結果が開示される時点(例えば、薬物が特定の疾患の治療に使用されることを承認するFDAの判断や、承認を拒絶する判断)が時点t=0に位置決めされる。
【0142】
このイベントの(すなわち、研究の結果の開示)前の最大20年間にわたる年間特徴値の中央値が示されている。特徴の横のアステリスクは、承認された薬物と非承認薬物との間のそれぞれの特徴値の有意な差(p<0.05、マン・ホイットニー・ウィルコクソン検定、両側検定)を示している。
【0143】
以下の特徴が図4に示されている:(A)1年ごとの文献数(「論文数」)、すなわち、1年ごとに発行された、疾患および標的に言及している文献数(「共起文献特徴」)。(B)1年ごとの正規化文献数、すなわち、その年の間に発行された文献ソースの生物医学文献の総数によって正規化された(A)の特徴。例えば、特定の疾患D1の名前が、参照期間、例えば特定の年に発行された1300件の文献で言及されている。この参照期間の間に発行された総文献数は、1Mioである。そのため、正規化文献数は、1300/1 Mioである。(C)1年ごとのコミットメント、1年ごとの標的および疾患の識別子を含む少なくとも2件の論文を発行した著者数を示す特徴。この特徴は、所与の疾患標的対に関して複数の論文を発行する著者の傾向を捕捉する。
【0144】
上述した特徴(A)は、共起文献特徴である。任意で、前記特徴のうちの1つまたは複数について、「疾患文献特徴」(文献が標的にも言及しているかどうかにかかわらず疾患に言及している1年ごとに発行された文献数)および/または「標的文献特徴」(文献が疾患にも言及しているかどうかにかかわらず標的に言及している1年ごとに発行された文献数)を計算することもできる。
【0145】
図4Dに、異なるオフセット時間を使用してそれぞれ導出された異なる訓練特徴セットでそれぞれ訓練された複数の異なるランダムフォレスト分類器のF値を示す。各分類器は、「判断時点」(研究の結果が時点t=0に開示される)までの様々な距離(「オフセット時間」)における薬物承認または失敗を予測する。時間独立ベースラインは、(1つまたは複数の)分類器を訓練するのに使用された訓練データにおける承認/失敗の事前比率に基づく計算推定結果を示す。アステリスクは、事前比率に基づくランダム推測と比較した研究の結果の分類器の予測の精度の有意な差(p<0.05、ウェルチのt検定、両側検定)を示している。予測の精度は、組み合わせ結果を生成するために各分類器によって生成された予測結果を組み合わせることによって高めることができる。
【0146】
図5A〜図5Dに、標的疾患対の標的識別子および疾患識別子を含む生物医学文献から抽出された様々な特徴を示す。これらの特徴は訓練特徴として使用することができる。図5A〜図5Cに示す特徴は、図4A〜図4Cについて説明した特徴に対応する。
【0147】
特徴が抽出される文献は、以下のように3つのクラスの標的疾患対についてコンパイルされた訓練文献である。FDAによって腫瘍性疾患に対する治療として承認された(クラス「承認」、n=42)または第2相/第3相臨床試験で失敗した(クラス「失敗」、n=74)標的薬物のリストをコンパイルした。
【0148】
言い換えると、T-DI対の第1のクラス(「承認」)は、その活性の修飾が、前記標的疾患対に含まれる疾患を治療することが実験的に検証された(「公知である」)標的をそれぞれ含む「正の」標的疾患対である。第2のクラス(「失敗」)は、その活性の修飾が、前記標的疾患対に含まれる疾患を治療できないことが実験的に検証された(「公知である」)標的をそれぞれ含む負の標的疾患対である。第3のクラス(「対照クラス」または「対照セット」)は、その標的が、標的疾患対に含まれる疾患を治療するための薬物の標的として使用も試験もされたことがない物質である標的疾患対を含む。
【0149】
対応する薬物標的(T)および疾患(DI)を使用してT-DI対を形成し、テキストマイニングを使用してMEDLINEから関連した文献を検索した。
【0150】
優先的に、薬物に言及している(「名前または同義語を含む」)または疾患に言及しているまたは疾患および薬物に言及しているすべての文献を検索した。次に、受け取った文献(この場合は:MEDLINEアブストラクト)およびそれらのメタデータから特徴を抽出した。文献数、著者数、遺伝子、化学物質、もしくは薬物の識別子をさらに含む検索文献の数、または「第1相/第2相/第3相」という用語の単純な出現などの簡単な特徴を包含する複数の異なるタイプの特徴を抽出し、解析した。
【0151】
加えて、特定のT-DI組み合わせに関する研究を能動的に行っている著者数(コミットメント)、ならびに製薬/生物工学産業に関係した著者の割合も決定した。どちらの特徴タイプも、研究課題の将来に治療可能性への科学専門家の信頼を示しうる。さらに、MeSH主要副標目の分布、すなわち、人間の専門家によって注釈付けされた文献内容を記述する主題を解析し、その出現が薬物承認の優れた予測子である特定のMeSH主要副標目のサブセットを特定した。
【0152】
各々T-DI対を、特定の時点、すなわち、本明細書では、疾患を治療するために特定の標的へ向けられた薬物の効力を決定するための研究の結果が開示される時点とも呼ぶ判断時点(OC)と関連付けた。承認された薬物のT-DI対では、OCはFDA承認の年である。失敗した薬物では、OCは治験失敗の年である。T-DI対ごとに、年ごとの特徴を計算し、OC(t=0)前のt=-1からt=-20年までに及ぶ時間窓を使用してプロットし、承認された薬物の特徴の中央値を失敗した薬物のものと比較した。
【0153】
その承認された薬物が存在する正の標的疾患対(クラス1)と、その「失敗した薬物」が存在する負の標的疾患対(クラス2)と、任意で、対照セット(クラス3)とについて検索された文献から特徴を抽出した。
【0154】
特徴を抽出するための文献解析は、前記標的疾患対の疾患の識別子および標的の識別子を含み、現在使用中の時間窓に含まれている第1の文献から開始する。よって、図5に示される解析の開始を示す時点t=0は、予測を実施する時点によって定義される図4の時点とは異なる時点である。
【0155】
図5A〜図5Dには、年次の特徴値の中央値が示されており、この中央値は、同じクラスの複数の標的疾患対から導出された同じタイプの複数の特徴から計算される。図示の特徴は以下のとおりである:(A)1年ごとの文献数。(B)(疾患にも標的にも言及していないものを含む)その年に発行された総文献数によって正規化された、1年ごとの文献数。(C)1年ごとのコミットメント。(D)特定の標的疾患対について検索され、特定の年に発行された総文献数に対する、前記特定の標的疾患対について検索され、前記特定の年に発行され、MeSH主要副標目「薬物療法」が割り当てられている文献数の割合。アステリスクは、クラス1(承認)とクラス3(対照セット)との間の有意な差(p<0.05、マン・ホイットニー・ウィルコクソン検定、両側検定)を示している。
【0156】
図7aに、特定の標的へ向けられた薬物が特定の疾患を治療するためにFDAによって承認された(または最終的に承認を拒絶された)時点OCの前の20年の期間内に発行された文献(「論文」)数の増加を示す。FDAによる承認日は、ここでは、特定の標的へ向けられた特定の薬物を疾患の治療に使用することができるかどうかを判断するための医学研究の結果が開示された日とみなされる。
【0157】
図7bに、特定の標的へ向けられた薬物が特定の疾患を治療するためにFDAによって承認された、または最終的に承認を拒絶された時点OCの前の20年を範囲とし、5年のオフセット時間を有する時間窓704を示す。窓は、それぞれ1年を範囲とする20の時間間隔I-20〜I-1を含む。判断時点OCの前の相対時点tにおいて特徴fi(t)を解析した。承認または失敗の将来のd年を予測するために機械学習分類器を訓練し、dはオフセット時間および窓702の終了に対応する。オフセット時間(「距離」)dごとに、異なる訓練特徴セットを抽出し、異なる分類器226.1、...、226.10を(d=1...10年で)訓練した。すべてのd分類器に同一のデータ処理を保証するために、距離d(例えば、この方式ではd=5)だけシフトされた20年の時間窓(グレーの領域)からの特徴を使用した。よって、時間間隔-20+1-d≦t≦-dからの特徴fi(t)を使用した。範囲-d+1≦t≦0内のより新しいデータは省いた。というのは、このデータは、この例に移されるときには、未知の将来のデータに対応するからである(すなわち、新しいT-DI対、d年間における未知の結果を有する「標的疾患対」)。
【0158】
図8aに、20の時間間隔I-22〜I-03を含み、3年のオフセット時間を有する時間窓706を示す。各時間間隔は1年を範囲とする。時間窓706は、訓練時間窓として使用されうる。該時間窓の間に発行された文献セットから試験特徴または訓練特徴を抽出することは、時間間隔ごとに第1の特徴および第2の特徴を抽出することを含みうる。例えば、時間間隔I-08で、第1の特徴FA-08が、受け取った文献のうち、時間間隔I-08の間に発行された文献から抽出される。加えて、複数の第2の特徴FB-08が、受け取った文献のうち、時間間隔I-08に発行された文献、またはこれに先行する時間間隔I-09〜I-22のいずれかに発行された文献から抽出され;Iは窓706内にある。スペースの都合で、間隔I-08の第1の特徴FA-08および第2の特徴FB-08と、間隔I-11の第1の特徴FA-11および第2の特徴FB-11だけが示されているが、第1の特徴および第2の特徴の抽出は窓内の時間間隔の各々について行われる。窓706の時間間隔ごとに抽出された第1の特徴および第2の特徴を合わせたものが入力特徴セットとして使用される。特徴抽出が訓練フェーズで使用される場合、抽出された特徴は、3年のオフセット時間について訓練された分類器226.3を生成するための訓練されていない分類器224の入力として使用される訓練特徴220.3である。
【0159】
図8bに、20の時間間隔I-23〜I-04を含み、4年のオフセット時間を有する時間窓708を示す。窓708は、窓706を1年過去にシフトすることによって生成することができる。該時間窓の間に発行された文献セットから試験特徴または訓練特徴を抽出することは、時間間隔708ごとに第1の特徴および第2の特徴を抽出することを含みうる。例えば、時間間隔I-08で、第1の特徴FA-08および第2の特徴FB-08を、図8aについて説明したようにそれぞれの文献から抽出することができる。あるいは、少なくとも、異なるオフセット時間を有する窓についてすでに抽出された第1の特徴FAが再利用されることも可能である。図示の例では、時間間隔I-23の第1の特徴のみが新たに抽出され、計算されさえすればよい。第2の特徴FB-23〜FB-04は、それらの特徴が計算される特定の時間間隔に先行する複数の時間間隔の文献から情報を集める累積的特徴である。よって、第2の特徴は、既定の1組の異なるオフセット時間の各々について時間間隔ごとに再計算される必要がありうる。特徴抽出が訓練フェーズで使用される場合、抽出された特徴は、4年のオフセット時間に訓練された分類器226.4を生成するための訓練されていない分類器224の入力として使用される訓練特徴220.4である。
【0160】
図9に、経時的な生物医学文献のメタデータにおいて指定されたMeSH主要副標目の分布の変化を示すグラフを示す。年ごとに、「BRAF」(標的)および「メラノーマ」(疾患)という用語が出現する文献についてのMeSH主要副標目分布を決定した。この標的疾患組み合わせは、小分子薬物Vemurafenib(Zelboraf(登録商標), Roche, Basel, Switzerland)に対応する。6つの最も頻度の高い副標目が異なるグレー値の領域で示されている。この化合物は、2005年に利用可能になった。その後の主題の分布のシフトが見られる。副標目「薬物療法」、「薬物効果(drug effects)」および「拮抗剤および阻害剤(antagonists & inhibitors)」はより頻繁に注釈付けされている。より原理的な主題である「遺伝学(Genetics)」は、2002年の最初の文献後からすでにずっと減少している。2011年に、この薬物はFDAによって承認された(「判断時点」:研究の結果が開示された)。この具体事例では、副標目「治療的使用」は、6つの最も頻度の高い副標目には含まれなかったが、一般に、この特徴は、特定の標的が疾患を治療するのに適した標的でありうることの優れた指標である。副標目の割合は、文献PAの、文献PBに対する割合によって定義され、PAは、所与の時間窓に発行され、標的の識別子を含み、疾患の識別子を含み、それぞれの副標目を含む文献全てのセットであり、PBは、所与の時間窓に発行され、標的の識別子を含み、疾患の識別子を含む文献全てのセットである。
【0161】
その経時的発展が図9に示されているMeSH主要件名標目は、本発明の態様について本明細書に記載されている特徴「MeSH主要副標目の正規化シャノンエントロピー」(fE)を計算するのに使用されうる。エントロピー(「無秩序」)の増加も図9から図式的に導き出せる。
【0162】
態様によれば、異なる年についてのシャノンエントロピーがプロットされ、表示装置上に表示される。これは、特定の分野が予測を実施する時点に到達した成熟度をユーザが評価するのをさらに支援しうる研究分野の成熟度の視覚的指示がユーザに提供されるため、有益となりうる。成熟した研究分野では予測精度がより高いため、これは、ユーザが現在の予測の精度を評価する助けとなりうる。
【0163】
図11に、3つの異なるクラスの標的疾患対について受け取られた文献から抽出された様々な特徴を示す。薬物は、FDAによって承認された(クラス1)または第2相もしくは第3相で拒絶された(クラス2)標的指向抗がん剤である。
【0164】
それぞれの判断時点「OC」(承認または失敗)はOC=0に位置し、判断時点の前の最大20年までの特徴中央値が示されている。9つの特徴クラスの各々からの少なくとも1つの選択された特徴が示されている。それぞれの特徴クラスは各プロットの上に2文字の略記で示されている。(A)1年ごとの文献(「論文」)数(fCTDIy)。(B)累積文献(「論文」)数(fCTDIc)。(C)1年ごとの疾病についての文献数(fCDIy)。(D)正規化文献数(fNTDIc)。(E)1年ごとの固有の著者名の数(fAuy)。(F)1年ごとの著者コミットメント(fR1y)。(G)関係先製薬会社または生物工学会社を有する1年ごとの文献の割合(fDI)。(H)MeSH主要副標目「薬物療法」および(I)「治療的使用」を使用した1年ごとの文献の割合(fMs)。(J)S/Smax=0がただ1つの副標目の使用に対応し、S/Smax=1が全てのMeSH副標目の等しい使用に対応する、MeSH主要副標目の正規化シャノンエントロピー(fE)。(K)1年ごとの文献で言及されている(1000文字当たりの)遺伝子数(fTg)。(L)「第1相」、「第2相」、「第3相」(fPp1,2,3)またはその同義語に言及している、1年ごとに発行された文献の割合。特徴値の横のアステリスクは有意な差を示す(p<0.05、マン・ホイットニー・ウィルコクソン検定、両側検定)。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【国際調査報告】