(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】2019204369
(43)【公開日】20191128
(54)【発明の名称】プログラマブルコントローラ及び機械学習装置
(51)【国際特許分類】
   G05B 19/05 20060101AFI20191101BHJP
【FI】
   !G05B19/05 F
【審査請求】有
【請求項の数】6
【出願形態】OL
【全頁数】17
(21)【出願番号】2018100021
(22)【出願日】20180524
(71)【出願人】
【識別番号】390008235
【氏名又は名称】ファナック株式会社
【住所又は居所】山梨県南都留郡忍野村忍草字古馬場3580番地
(74)【代理人】
【識別番号】110001151
【氏名又は名称】あいわ特許業務法人
(72)【発明者】
【氏名】酒井 裕
【住所又は居所】山梨県南都留郡忍野村忍草字古馬場3580番地 ファナック株式会社内
【テーマコード(参考)】
5H220
【Fターム(参考)】
5H220AA04
5H220BB07
5H220CC07
5H220CX01
5H220EE14
5H220GG03
5H220GG05
5H220JJ12
5H220JJ26
5H220KK06
5H220LL01
(57)【要約】
【課題】複数のシーケンスプログラムの時間配分を最適化することが可能なプログラマブルコントローラ及び機械学習装置を提供すること。
【解決手段】本発明のプログラマブルコントローラ1は、実行時間配分を設定する時間配分設定部34と、加工システムの動作ステージを解析するステージ解析部36と、サイクルタイムを計測する計測部38と、シーケンスプログラムの実行時間配分の変更を学習する機械学習装置100と、を備え、機械学習装置100は、実行時間配分データ、動作ステージデータ、及び機械動作パターンデータを状態変数として観測する状態観測部106と、動作ステージの実行に掛かるサイクルタイムの適否を判定するサイクルタイム判定データを判定データとして取得する判定データ取得部108と、加工システムの動作ステージ及び機械の動作パターンと実行時間配分の変更とを関連付けて学習する学習部110と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラであって、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更するプログラマブルコントローラにおいて、
前記実行時間配分を設定する時間配分設定部と、
前記機械の動作状態に係るデータに基づいて前記加工システムの動作ステージを解析するステージ解析部と、
前記加工システムの前記動作ステージの実行に掛かる時間であるサイクルタイムを計測する計測部と、
前記動作周期毎のシーケンスプログラムの実行時間配分の変更を学習する機械学習装置と、を備え、
前記機械学習装置は、
前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、
前記設定されている実行時間配分の下で実行された前記動作ステージの実行に掛かるサイクルタイムの適否を判定するサイクルタイム判定データを、動作周期毎のシーケンスプログラムの実行時間配分の変更の適否判定結果を示す判定データとして取得する判定データ取得部と、
前記状態変数と前記判定データとを用いて、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習する学習部と、
を備えるプログラマブルコントローラ。
【請求項2】
前記学習部は、
前記適否判定結果に関連する報酬を求める報酬計算部と、
前記報酬を用いて、前記加工システムの動作ステージ及び前記機械の動作パターンに対する動作周期毎のシーケンスプログラムの実行時間配分の変更行動の価値を表す関数を更新する価値関数更新部と、
を備え、
前記報酬計算部は、前記サイクルタイムが短縮されるほど高い報酬を与える、
請求項1に記載のプログラマブルコントローラ。
【請求項3】
前記学習部は、前記状態変数と前記判定データとを多層構造で演算する、
請求項1又は2に記載のプログラマブルコントローラ。
【請求項4】
加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラであって、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更するプログラマブルコントローラにおいて、
前記実行時間配分を設定する時間配分設定部と、
前記機械の動作状態に係るデータに基づいて前記加工システムの動作ステージを解析するステージ解析部と、
前記動作周期毎のシーケンスプログラムの実行時間配分の変更を学習した機械学習装置と、を備え、
前記機械学習装置は、
前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、
前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習した学習部と、
前記状態観測部が観測した状態変数と、前記学習部による学習結果に基づいて、動作周期毎のシーケンスプログラムの実行時間配分の変更を決定する意思決定部と、
を備えるプログラマブルコントローラ。
【請求項5】
加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラにおける、前記加工システムの動作ステージ毎の動作周期毎の該シーケンスプログラムの実行時間配分の変更を学習する機械学習装置であって、
前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、
前記設定されている実行時間配分の下で実行された前記動作ステージの実行に掛かるサイクルタイムの適否を判定するサイクルタイム判定データを、動作周期毎のシーケンスプログラムの実行時間配分の変更の適否判定結果を示す判定データとして取得する判定データ取得部と、
前記状態変数と前記判定データとを用いて、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習する学習部と、
を備える機械学習装置。
【請求項6】
加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラにおける、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更を学習した機械学習装置であって、
前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、
前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習した学習部と、
前記状態観測部が観測した状態変数と、前記学習部による学習結果に基づいて、動作周期毎のシーケンスプログラムの実行時間配分の変更を決定する意思決定部と、
を備える機械学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラマブルコントローラ及び機械学習装置に関する。
【背景技術】
【0002】
従来、数値制御工作機械(NC工作機械)と、該数値制御工作機械の周辺で稼働するロボットやローダ等の周辺装置を含む加工システムを、1台のプログラマブルコントローラ(PLC:Programmable Logic Controller、PMC:Programmable Machine Controller等)により制御する場合、それぞれの用途に応じて作成されている複数の用途別シーケンスプログラムを時分割処理で実行することで加工システムを構成する各装置を制御している(例えば、特許文献1)。この様な制御方式を用いる場合、プログラマブルコントローラでは動作周期毎に、各用途別シーケンスプログラムに対して実行時間の配分した上で、配分した時間の分だけ各用途別シーケンスプログラムを実行することになる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011−198356号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般に、用途別に作られているシーケンスプログラム(例えば、工作機械用シーケンスプログラム、搬送ロボット用シーケンスプログラム、バリ取り用シーケンスプログラム等)は、加工プロセスの中でそれぞれの制御対象物が繁忙となるタイミングにずれがある。例えば、図8に例示されるように、数値制御工作機械、ワーク搬送ロボット、バリ取りシステムのそれぞれの制御に用いられるシーケンスプログラム#1,#2,#3を、プログラマブルコントローラ上で動作周期毎に時間配分をしながら順に実行する場合を考える。なお、加工プロセスはステージ1〜6(2週目以降はステージ3〜6)が繰り返され、数値制御工作機械、ワーク搬送ロボット、バリ取りシステムは、それぞれのステージにおいて以下のように動作しているものとする。
【0005】
(ステージ1)ワーク搬送ロボットが、数値制御工作機械の加工エリアに未加工ワークを供給する
(ステージ2)数値制御工作機械が、ワークの加工が行う
(ステージ3)ワーク搬送ロボットが、数値制御工作機械の加工エリアから加工済みワークを取り出し、取り出したワークをバリ取りシステムの加工エリアに供給する
(ステージ4)バリ取りシステムが、加工済みワークのバリ取り加工を行い、同時にワーク搬送ロボットが、数値制御工作機械の加工エリアに未加工ワークを供給する
(ステージ5)数値制御工作機械が、ワークの加工が行い、同時にバリ取りシステムが、加工済みワークのバリ取り加工を継続する
(ステージ6)数値制御工作機械が、ワークの加工が行い、同時にワーク搬送ロボットが、バリ取りシステムの加工エリアからバリ取り済みワークを取り出す
【0006】
それぞれのステージにおいて、シーケンスプログラム#1〜#3は、プログラマブルコントローラ上で配分された実行時間だけ実行することが繰り返されるが、各ステージにおいて各々の制御対象であるNC工作機械、ワーク搬送ロボット、バリ取りシステムの動作状態が異なるため、その動作状態に併せて各シーケンスプログラムに配分する時間を適切に配分する必要がある。例えば、ステージ1では、ワーク搬送ロボットのみが動作し、他の機械は待ち状態であるため、シーケンスプログラム#1,#3には時間配分を落としてそれぞれ5%とし、シーケンスプログラム#2の実行に90%の時間を配分する。また、ステージ4では、ワーク搬送ロボットとバリ取りシステムとが動作しており、また、バリ取りシステムの動作の監視のほうがワーク搬送ロボットよりも重要視されるので、シーケンスプログラム#2に25%、シーケンスプログラム#3に70%の時間を配分し、シーケンスプログラム#1には残りの5%の時間が配分される。
【0007】
この様な、各々のステージにおける各制御対象の動作状況や、各制御対象の動作の重要度等に応じて、ステージが切り換わるタイミングを見極めて、プログラムの時間配分を適切に切り替えたいという課題がある。
【0008】
そこで本発明の目的は、複数のシーケンスプログラムの時間配分を最適化することが可能なプログラマブルコントローラ及び機械学習装置を提供することである。
【課題を解決するための手段】
【0009】
本発明のプログラマブルコントローラは、制御対象となる加工システムを構成する機械の動作状態を撮像して得られた画像データ、該機械との間でやり取りされるDI/DOデータ、各機械の軸の座標データ等を状態変数とし、加工プロセスのステージの処理時間に対する判定した結果を判定データとした機械学習を行い、その学習結果に基づいて各機械を制御するためのシーケンスプログラムの実行時間配分を変更することにより、上記課題を解決する。
【0010】
そして、本発明の一態様は、加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラであって、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更するプログラマブルコントローラにおいて、前記実行時間配分を設定する時間配分設定部と、前記機械の動作状態に係るデータに基づいて前記加工システムの動作ステージを解析するステージ解析部と、前記加工システムの前記動作ステージの実行に掛かる時間であるサイクルタイムを計測する計測部と、前記動作周期毎のシーケンスプログラムの実行時間配分の変更を学習する機械学習装置と、を備え、前記機械学習装置は、前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、前記設定されている実行時間配分の下で実行された前記動作ステージの実行に掛かるサイクルタイムの適否を判定するサイクルタイム判定データを、動作周期毎のシーケンスプログラムの実行時間配分の変更の適否判定結果を示す判定データとして取得する判定データ取得部と、前記状態変数と前記判定データとを用いて、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習する学習部と、を備えるプログラマブルコントローラである。
【0011】
本発明の他の態様は、加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラであって、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更するプログラマブルコントローラにおいて、前記実行時間配分を設定する時間配分設定部と、前記機械の動作状態に係るデータに基づいて前記加工システムの動作ステージを解析するステージ解析部と、前記動作周期毎のシーケンスプログラムの実行時間配分の変更を学習した機械学習装置と、を備え、前記機械学習装置は、前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習した学習部と、前記状態観測部が観測した状態変数と、前記学習部による学習結果に基づいて、動作周期毎のシーケンスプログラムの実行時間配分の変更を決定する意思決定部と、を備えるプログラマブルコントローラである。
【0012】
本発明の他の態様は、加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラにおける、前記加工システムの動作ステージ毎の動作周期毎の該シーケンスプログラムの実行時間配分の変更を学習する機械学習装置であって、前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、前記設定されている実行時間配分の下で実行された前記動作ステージの実行に掛かるサイクルタイムの適否を判定するサイクルタイム判定データを、動作周期毎のシーケンスプログラムの実行時間配分の変更の適否判定結果を示す判定データとして取得する判定データ取得部と、前記状態変数と前記判定データとを用いて、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習する学習部と、を備える機械学習装置である。
【0013】
本発明の他の態様は、加工システムを構成する少なくとも1つの機械を制御する複数のシーケンスプログラムを実行するプログラマブルコントローラにおける、前記加工システムの動作ステージ毎に動作周期毎の該シーケンスプログラムの実行時間配分を変更を学習した機械学習装置であって、前記加工システムの動作ステージの実行時に設定されている実行時間配分を示す実行時間配分データ、前記動作ステージを示す動作ステージデータ、及び前記動作ステージにおける前記機械の動作状態に係るデータである機械動作パターンデータを、環境の現在状態を表す状態変数として観測する状態観測部と、前記加工システムの動作ステージ及び前記機械の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習した学習部と、前記状態観測部が観測した状態変数と、前記学習部による学習結果に基づいて、動作周期毎のシーケンスプログラムの実行時間配分の変更を決定する意思決定部と、を備える機械学習装置である。
【発明の効果】
【0014】
本発明により、複数シーケンスプログラムの実行時間の配分が最適化され、システム全体の処理能力が上がり、また、利用するシーケンスプログラムが変更されても、機械学習による再学習が為されて最適化される。
【図面の簡単な説明】
【0015】
【図1】一実施形態によるプログラマブルコントローラの概略的なハードウェア構成図である。
【図2】一実施形態によるプログラマブルコントローラの概略的な機能ブロック図である。
【図3】動作状態解析結果テーブルを例示する図である。
【図4】加工システムの動作状態の履歴と、該動作状態の履歴から特定される加工システムの動作ステージを例示する図である。
【図5】プログラマブルコントローラの一形態を示す概略的な機能ブロック図である。
【図6】機械学習方法の一形態を示す概略的なフローチャートである。
【図7A】ニューロンを説明する図である。
【図7B】ニューラルネットワークを説明する図である。
【図8】プログラマブルコントローラにおけるシーケンスプログラムに対する動作周期毎の実行時間配分について説明する図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態を図面と共に説明する。
図1は第1の実施形態によるプログラマブルコントローラの要部を示す概略的なハードウェア構成図である。
【0017】
本実施形態によるプログラマブルコントローラ1が備えるプロセッサ11は、プログラマブルコントローラ1を全体的に制御するプロセッサである。プロセッサ11は、ROM12に格納されたシステム・プログラムをバス20を介して読み出し、該システム・プログラムに従ってプログラマブルコントローラ1の全体を制御する。RAM13には一時的な計算データや表示データ、マウスやキーボード等の入力装置71を介してしてオペレータが入力した各種データ等が一時的に格納される。
【0018】
不揮発性メモリ14は、例えば図示しないバッテリでバックアップされるなどして、プログラマブルコントローラ1の電源がオフされても記憶状態が保持されるメモリとして構成される。不揮発性メモリ14には、プログラマブルコントローラ1の動作に係る設定情報が格納される設定領域や、入力装置71から入力されたプログラムや図示しない外部記憶装置から読み込まれたプログラム、インタフェース19を介して撮像装置4から取得される画像データ、インタフェース16に接続されたI/Oユニット2を介して制御対象となる加工システムを構成する機械3とやり取りされる各種データ(例えば、各々の機械3に対して入出力されるDI/DOデータ、各々の機械3が備える軸の座標値等)が記憶されている。不揮発性メモリ14に記憶されたプログラムや各種データは、実行時/利用時にはRAM13に展開されても良い。また、ROM12には、公知の解析プログラムなどの各種のシステム・プログラム(後述する機械学習装置100とのやりとりを制御するためのシステム・プログラムを含む)があらかじめ書き込まれている。
【0019】
プログラマブルコントローラ1は、インタフェース16に接続されたI/Oユニット2を介して各機械3とDIデータ(機械3への出力信号等)、DOデータ(機械3からの入力信号等)をやり取りすることにより、各機械の制御を行う。
【0020】
表示装置70には、メモリ上に読み込まれた各データ、プログラム等が実行された結果として得られたデータ、後述する機械学習装置100から出力されたデータ等がインタフェース17を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置71は、オペレータによる操作に基づく指令,データ等を受けて、インタフェース18を介してプロセッサ11に渡す。
【0021】
撮像装置4は、プログラマブルコントローラ1が制御対象とする加工システムを構成する各機械3の動作状態を撮像し、得られた画像データをインタフェース19を介してプロセッサ11へ渡す。撮像装置4が撮像する画像データは、動画像でも良いし、所定の周期で連続して撮像される複数の静止画であっても良い。撮像装置4は、1台で複数の機械3の動作状態を撮像するようにしても良いし、それぞれの機械3に対して1台の撮像装置4を配置し、配置された複数の撮像装置4により加工システム全体の動作状態を撮像するようにしても良い。なお、撮像装置4は、機械3の動作状態の特定に画像データを用いない場合には、必ずしも必要な構成とはしない。
【0022】
インタフェース21は、プログラマブルコントローラ1と機械学習装置100とを接続するためのインタフェースである。機械学習装置100は、機械学習装置100全体を統御するプロセッサ101と、システム・プログラム等を記憶したROM102、機械学習に係る各処理における一時的な記憶を行うためのRAM103、及び学習モデル等の記憶に用いられる不揮発性メモリ104を備える。機械学習装置100は、インタフェース21を介してプログラマブルコントローラ1で取得可能な各情報(例えば、撮像装置4から取得される画像データ、各々の機械3に対して入出力されるDI/DOデータ、各々の機械3が備える軸の座標値等)を観測することができる。また、プログラマブルコントローラ1は、機械学習装置100から出力される指令を受けて、動作周期毎のシーケンスプログラムの時間配分を変更する。
【0023】
図2は、一実施形態によるプログラマブルコントローラ1と機械学習装置100の概略的な機能ブロック図である。図2に示した各機能ブロックは、図1に示したプログラマブルコントローラ1が備えるプロセッサ11、及び機械学習装置100のプロセッサ101が、それぞれのシステム・プログラムを実行し、プログラマブルコントローラ1及び機械学習装置100の各部の動作を制御することにより実現される。
【0024】
本実施形態のプログラマブルコントローラ1は、機械学習装置100から出力された動作周期毎のシーケンスプログラムの実行時間配分の変更指令を受けて、不揮発性メモリ14内の実行時間配分設定領域に設定されている動作周期毎のシーケンスプログラムの実行時間配分を設定する時間配分設定部34と、各機械3の動作状態に基づいて現在の加工システムの動作ステージを解析するステージ解析部36と、各ステージにおけるサイクルタイムを計測する計測部38とを備える。
【0025】
時間配分設定部34は、機械学習装置100から出力された動作周期毎のシーケンスプログラムの実行時間配分の変更指令に従って、プログラマブルコントローラ1が実行する複数の用途別シーケンスプログラムについて、動作周期毎の実行時間配分を、例えば割合(%)や優先度(高、通常、低等)等で設定する。
【0026】
ステージ解析部36は、不揮発性メモリ14に記録された、I/Oユニット2を介して機械3との間でやり取りされるDI/DOデータ、各機械3が備える軸の座標値、撮像装置4が各機械3を撮像して得られた画像データ等を解析し、各機械3の動作状態を特定し、その動作状態の組み合わせに基づいて機械3から構成される加工システム全体の動作状態を特定する。ステージ解析部36は、例えばDI/DOデータの入出力状況(例えば、機械3が加工中であることを示す信号の出力状態や、機械3に対して動作開始/停止を指令する信号が出力されたか否か等)に基づいて、現在の各機械3の動作状態を特定するようにしても良い。また、ステージ解析部36は、各機械3が備える軸の座標値や座標値の変化に基づいて、現在の各機械3の動作状況を特定するようにしても良い。また、ステージ解析部36は、例えば画像データに含まれる各機械3の動作状態を示す特徴的な部分(加工中、安全等を通知するランプや、特定の駆動部の位置や動き、例えば、扉の開閉状態、主軸、アームの動き等)について画像解析を行い、その解析結果に基づいて各機械3の動作状態を特定するようにしても良い。更に、これらを組みあわせてより精度高く各機械3の動作状態を特定するようにしても良い。各機械3の動作状態は、少なくとも動作中、待機中の2つの状態を含み、更に加工中、搬送中、停止中等といったような動作状態の意味に応じた状態を含んでいることが望ましい。各機械3の動作状態は、一般に、動作状態が切り換わるきっかけとなるような、DI/DOデータ乃至DI/DOデータの系列、各機械3が備える軸の座標値、画像データの変化等を時間的な境界として次の動作状態に切り換わるので、各機械3の動作状態が切り換わるDI/DOデータ乃至DI/DOデータの系列、各機械3が備える軸の座標値、画像データの変化等の条件を予め設定しておき、設定された条件が満足された時に動作状態が切り換わると判定し、当該判定に基づいてそれぞれの時点における動作状態を特定するようにすればよい。そして、ステージ解析部36は、これらの各機械3の動作状態の組み合わせにより、加工システムの動作状態を特定する。そして、ステージ解析部36は、特定した加工システムの動作状態について、例えば図3に例示されるように、加工システムの動作状態を識別する情報と、各機械3の動作状態とを関連付けた動作状態解析結果テーブルと、加工システムが動作を開始してからの動作状態の履歴を作成して不揮発性メモリに記憶する。
【0027】
次に、ステージ解析部36は、加工システムが動作を開始してからの加工システムの動作状態の履歴と、それぞれの動作状態におけるDI/DOデータの入出力状況の系列、各機械3が備える軸の座標値の系列、画像データに含まれる各機械3の動作状態を示す特徴的な部分の変化の系列等から特定される動作パターンに基づいて、加工システムの動作ステージを特定する。図4は、加工システムの動作状態の履歴と、該動作状態の履歴から特定される加工システムの動作ステージの例を示す図である。ステージ解析部36は、加工システムの動作状態が同一で、動作パターンが類似するものを、同一の動作ステージとしてまとめる。例えば、図4において、加工システムの動作が開始してから3番目の動作状態と7番目の動作状態とは、加工システムの動作状態こそ同一ではあり、それぞれの動作状態における動作パターンが同一(類似)するため、これらの動作状態を同じ動作ステージであると判定し、加工システムの動作が開始してから最初の動作状態と3番目の動作状態とは、加工システムの動作状態こそ同一では有るが、それぞれの動作状態における動作パターンが異なるため、これらの動作状態は異なる動作ステージであると判定する。この様にして特定した加工システムの各動作ステージについて、ステージ解析部36は、DI/DOデータの入出力状況、各機械3が備える軸の座標値、画像データ等を整理した上で不揮発性メモリ14に記憶する。
【0028】
計測部38は、加工システムのそれぞれの動作ステージ毎に、該動作ステージに掛かる時間を計測する。計測部38は、計測したそれぞれの動作ステージに掛かる時間を不揮発性メモリ14に履歴として記憶する。
【0029】
一方、プログラマブルコントローラ1が備える機械学習装置100は、加工システムの動作ステージに対する動作周期毎のシーケンスプログラムの実行時間配分の変更を、いわゆる機械学習により自ら学習するためのソフトウェア(学習アルゴリズム等)及びハードウェア(プロセッサ101等)を含む。プログラマブルコントローラ1が備える機械学習装置100が学習するものは、加工システムの動作ステージと、動作周期毎のシーケンスプログラムの実行時間配分の変更との、相関性を表すモデル構造に相当する。
【0030】
図2に機能ブロックで示すように、プログラマブルコントローラ1が備える機械学習装置100は、実行時間配分を示す実行時間配分データS1、加工システムの動作ステージを示す動作ステージデータS2、及び該動作ステージにおける加工システムを構成する機械3の動作パターンを示す機械動作パターンデータS3を含む環境の現在状態を表す状態変数Sとして観測する状態観測部106と、設定された実行時間配分に基づいて行われた加工システムを構成する機械3の制御における加工システムの動作ステージに掛かるサイクルタイムを判定するためのサイクルタイム判定データD1を含む判定データDを取得する判定データ取得部108と、状態変数Sと判定データDとを用いて、加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更を関連付けて学習する学習部110とを備える。
【0031】
状態観測部106が観測する状態変数Sのうち、実行時間配分データS1は、機械学習装置100が出力した動作周期毎のシーケンスプログラムの実行時間配分の変更指令に基づいて変更された実行時間配分として取得することができる。実行時間配分は、上記したように、例えば動作周期毎の実効時間の割合(%)や優先度(高、通常、低)等で設定できるので、実行時間配分の変更指令は、直接的に動作周期毎の実行時間配分を指令するものであっても良いし、動作周期毎の実行時間配分を調整(5%増加/減少させる、1段階優先度を上げる/下げる等)するものであっても良い。
【0032】
実行時間配分データS1は、機械学習装置100が学習部110の学習結果に基づいて1つ前の学習周期において設定された実行時間配分をそのまま用いることができる。このような手法を取る場合には、機械学習装置100は設定されている実行時間配分を学習周期毎にRAM103に一時的に記憶しておき、状態観測部106は、RAM103から1つ前の学習周期で変更された実行時間配分を今回の学習周期の実行時間配分データS1として取得するようにしても良い。
【0033】
状態観測部106が観測する状態変数Sのうち、動作ステージデータS2は、1つ前の学習周期における加工システムの動作ステージとして取得することができる。
また、状態観測部106が観測する状態変数の内、機械動作パターンデータS3は、1つ前の学習周期における加工システム動作ステージにおける、各機械3のDI/DOデータの入出力状況の系列、各機械3が備える軸の座標値の系列、画像データに含まれる各機械3の動作状態を示す特徴的な部分の変化の系列等として取得することができる。
これらのデータは、学習時においては、ステージ解析部36により整理されて不揮発性メモリ14に記録されたデータを用いることができ、また、推定時においては加工システムを構成する各機械3から取得されるDI/DOデータの入出力状況、軸の座標値、画像データ等の系列と、不揮発性メモリ14に記録された加工ステージに係るデータとの間で類似性を判定し、類似すると判定されたデータを不揮発性メモリ14から取得するようにすれば良い。
【0034】
判定データ取得部108は、サイクルタイム判定データD1として、設定された実行時間配分に基づいて加工システムを動作させた時の動作ステージに掛かる時間(即ちサイクルタイム)を計測部38が計測した計測値に対する判定結果を用いることができる。判定データ取得部108が用いるサイクルタイム判定データD1としては、例えば、加工システムの同じ動作ステージについて、実行時間配分を変える前と後とで、該動作ステージに掛かる時間が短縮されたか(適)、又は延びたか(否)といったものを使用すれば良い。
【0035】
なお、判定データ取得部108は、学習部110による学習の段階では必須の構成となるが、学習部110による機械の動作状態と動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けた学習が完了した後には必ずしも必須の構成ではない。
【0036】
学習部110に対して同時に入力される状態変数Sは、学習部110による学習周期で考えた場合、1つ前の学習周期において取得されたデータに基づくものとなる。このように、プログラマブルコントローラ1が備える機械学習装置100が学習を進める間、環境においては、所定の加工システムの動作ステージにおけるシーケンスプログラムの実行時間配分の設定(変更)、該動作ステージの実行中における計測部38によるサイクルタイムの計測、該動作ステージにおける計測部38が計測したサイクルタイムの適否判定、各データに基づく学習が繰り返し実施される。
【0037】
学習部110は、機械学習と総称される任意の学習アルゴリズムに従い、加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更を学習する。学習部110は、前述した状態変数Sと判定データDとを含むデータ集合に基づく学習を反復実行することができる。
【0038】
このような学習サイクルを繰り返すことにより、学習部110は、加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更との相関性を暗示する特徴を識別することができるようになる。学習アルゴリズムの開始時には加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更の相関性は実質的に未知であるが、学習部110は、学習を進めるに従い徐々に特徴を識別して相関性を解釈する。加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更との相関性が、ある程度信頼できる水準まで解釈されると、学習部110が反復出力する学習結果は、現在状態(つまり加工システムの動作ステージ及び機械3の動作パターン)に対して、動作周期毎のシーケンスプログラムの実行時間配分をどう変更するべきかという行動の選択(つまり意思決定)を行うために使用できるものとなる。つまり学習部110は、学習アルゴリズムの進行に伴い、加工システムの動作ステージ及び機械3の動作パターンに対して動作周期毎のシーケンスプログラムの実行時間配分をどのように変更するべきかという行動との、相関性を最適解に徐々に近づけることができる。
【0039】
意思決定部122は、状態変数Sと学習部110が学習した結果に基づいて、動作周期毎のシーケンスプログラムの実行時間配分の変更を決定し、決定した動作周期毎のシーケンスプログラムの実行時間配分の変更を行うための動作周期毎のシーケンスプログラムの実行時間配分の変更指令を時間配分設定部34へと出力する。
【0040】
上記したように、プログラマブルコントローラ1が備える機械学習装置100は、状態観測部106が観測した状態変数Sと判定データ取得部108が取得した判定データDとを用いて、学習部110が機械学習アルゴリズムに従い、加工システムの動作ステージ及び機械3の動作パターンに対する動作周期毎のシーケンスプログラムの実行時間配分の変更を学習するものである。状態変数Sは、実行時間配分データS1、動作ステージデータS2、及び機械動作パターンデータS3といったデータで構成され、また判定データDは、実際に加工システムを動作させた動作ステージにおいて計測されたサイクルタイムから一義的に求められる。したがって、プログラマブルコントローラ1が備える機械学習装置100によれば、学習部110の学習結果を用いることで、加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更を、自動的かつ正確に行うことが可能となる。
【0041】
そして、最適な動作周期毎のシーケンスプログラムの実行時間配分の変更を、自動的に行うことができれば、加工システムを構成する機械3から観測されるデータを把握するだけで、動作周期毎のシーケンスプログラムの実行時間配分を適切な状態へと迅速に変更することができる。
【0042】
図5に示すプログラマブルコントローラ1が備える機械学習装置100において、学習部110は、動作周期毎のシーケンスプログラムの実行時間配分が設定され、設定された実行時間配分に基づく加工システムの動作の結果の適否判定結果(学習周期で用いられる判定データDに相当)に関連する報酬Rを求める報酬計算部112と、報酬Rを用いて、実行時間配分の価値を表す関数Qを更新する価値関数更新部114とを備える。学習部110は、価値関数更新部114が関数Qの更新を繰り返すことによって加工システムの動作ステージ及び機械3の動作パターンに対する動作周期毎のシーケンスプログラムの実行時間配分の変更を学習する。
【0043】
学習部110が実行する強化学習のアルゴリズムの一例を説明する。この例によるアルゴリズムは、Q学習(Q−learning)として知られるものであって、行動主体の状態sと、その状態sで行動主体が選択し得る行動aとを独立変数として、状態sで行動aを選択した場合の行動の価値を表す関数Q(s,a)を学習する手法である。状態sで価値関数Qが最も高くなる行動aを選択することが最適解となる。状態sと行動aとの相関性が未知の状態でQ学習を開始し、任意の状態sで種々の行動aを選択する試行錯誤を繰り返すことで、価値関数Qを反復して更新し、最適解に近付ける。ここで、状態sで行動aを選択した結果として環境(つまり状態s)が変化したときに、その変化に応じた報酬(つまり行動aの重み付け)rが得られるように構成し、より高い報酬rが得られる行動aを選択するように学習を誘導することで、価値関数Qを比較的短時間で最適解に近付けることができる。
【0044】
価値関数Qの更新式は、一般に下記の数1式のように表すことができる。数1式において、st及びatはそれぞれ時刻tにおける状態及び行動であり、行動atにより状態はst+1に変化する。rt+1は、状態がstからst+1に変化したことで得られる報酬である。maxQの項は、時刻t+1で最大の価値Qになる(と時刻tで考えられている)行動aを行ったときのQを意味する。α及びγはそれぞれ学習係数及び割引率であり、0<α≦1、0<γ≦1で任意設定される。
【0045】
【数1】
【0046】
学習部110がQ学習を実行する場合、状態観測部106が観測した状態変数S及び判定データ取得部108が取得した判定データDは、更新式の状態sに該当し、現在状態(つまり、加工システムの動作ステージ及び機械3の動作パターン)に対して動作周期毎のシーケンスプログラムの実行時間配分をどのように変更するべきかという行動は、更新式の行動aに該当し、報酬計算部112が求める報酬Rは、更新式の報酬rに該当する。よって価値関数更新部114は、現在状態に対する実行時間配分の価値を表す関数Qを、報酬Rを用いたQ学習により繰り返し更新する。
【0047】
報酬計算部112が求める報酬Rは、例えば、動作周期毎のシーケンスプログラムの実行時間配分を変更した後に行われる、変更された実行時間配分に基づく加工システムの動作の結果の適否判定結果が「適」と判定される場合(例えば、同じ動作ステージにおける実行時間配分の変更前よりもサイクルタイムが短くなった場合等)に正(プラス)の報酬Rとし、動作周期毎のシーケンスプログラムの実行時間配分を変更した後に行われる、変更された実行時間配分に基づく加工システムの動作の結果の適否判定結果が「否」と判定される場合(例えば、同じ動作ステージにおける実行時間配分の変更前よりもサイクルタイムが長くなった場合等)に負(マイナス)の報酬Rとすることができる。正負の報酬Rの絶対値は、互いに同一であってもよいし異なっていてもよい。また、判定の条件として、判定データDに含まれる複数の値を組み合わせて判定するようにしても良い。
【0048】
また、変更された実行時間配分に基づくワークの加工の適否判定結果を、「適」及び「否」の二通りだけでなく複数段階に設定することができる。例として、変更された実行時間配分に基づく加工システムの動作のサイクルタイムTが変更前のサイクルタイムTp特比較して5%以上短縮された場合には報酬R=5を与え、3%以上5%未満短縮された場合には報酬R=3を与え、0%以上3%未満短縮された時は報酬R=1を、サイクルタイムが延びた場合には報酬R=−3(マイナスの報酬)を与えるような構成とすることができる。
【0049】
また、学習の初期段階は判定に用いる閾値を比較的大きく設定し、学習が進行するにつれて判定に用いる閾値を縮小する構成とすることもできる。
【0050】
価値関数更新部114は、状態変数Sと判定データDと報酬Rとを、関数Qで表される行動価値(例えば数値)と関連付けて整理した行動価値テーブルを持つことができる。この場合、価値関数更新部114が関数Qを更新するという行為は、価値関数更新部114が行動価値テーブルを更新するという行為と同義である。Q学習の開始時には環境の現在状態と動作周期毎のシーケンスプログラムの実行時間配分の変更との相関性は未知であるから、行動価値テーブルにおいては、種々の状態変数Sと判定データDと報酬Rとが、無作為に定めた行動価値の値(関数Q)と関連付けた形態で用意されている。なお報酬計算部112は、判定データDが分かれば、これに対応する報酬Rを直ちに算出でき、算出した値Rが行動価値テーブルに書き込まれる。
【0051】
シミュレーションの結果の適否判定結果に応じた報酬Rを用いてQ学習を進めると、より高い報酬Rが得られる行動を選択する方向へ学習が誘導され、選択した行動を現在状態で実行した結果として変化する環境の状態(つまり状態変数S及び判定データD)に応じて、現在状態で行う行動についての行動価値の値(関数Q)が書き換えられて行動価値テーブルが更新される。この更新を繰り返すことにより、行動価値テーブルに表示される行動価値の値(関数Q)は、適正な行動(本発明の場合、加工システムの各動作ステージにおけるサイクルタイムが短くなるように動作周期毎のシーケンスプログラムの実行時間配分を変更する行動)であるほど大きな値となるように書き換えられる。このようにして、未知であった環境の現在状態(加工システムの動作ステージ及び機械3の動作パターン)とそれに対する行動(動作周期毎のシーケンスプログラムの実行時間配分の変更)との相関性が徐々に明らかになる。つまり行動価値テーブルの更新により、加工システムの動作ステージ及び機械3の動作パターンと、動作周期毎のシーケンスプログラムの実行時間配分の変更との関係が最適解に徐々に近づけられる。
【0052】
図6を参照して、学習部110が実行する上記したQ学習のフロー(つまり機械学習方法の一形態)をさらに説明する。まずステップSA01で、価値関数更新部114は、その時点での行動価値テーブルを参照しながら、状態観測部106が観測した状態変数Sが示す現在状態で行う行動として動作周期毎のシーケンスプログラムの実行時間配分の変更行動を無作為に選択する。次に価値関数更新部114は、ステップSA02で、状態観測部106が観測している現在状態の状態変数Sを取り込み、ステップSA03で、判定データ取得部108が取得している現在状態の判定データDを取り込む。次に価値関数更新部114は、ステップSA04で、判定データDに基づき、変更された実行時間配分による加工システムの動作ステージにおけるサイクルタイムが適当であったか否かを判断し、適当であった場合、ステップSA05で、報酬計算部112が求めた正の報酬Rを関数Qの更新式に適用し、次いでステップSA06で、現在状態における状態変数S及び判定データDと報酬Rと行動価値の値(更新後の関数Q)とを用いて行動価値テーブルを更新する。ステップSA04で、変更された実行時間配分による加工システムの動作ステージにおけるサイクルタイムが適当でなかったと判断した場合、ステップSA07で、報酬計算部112が求めた負の報酬Rを関数Qの更新式に適用し、次いでステップSA06で、現在状態における状態変数S及び判定データDと報酬Rと行動価値の値(更新後の関数Q)とを用いて行動価値テーブルを更新する。学習部110は、ステップSA01〜SA07を繰り返すことで行動価値テーブルを反復して更新し、動作周期毎のシーケンスプログラムの実行時間配分の変更の学習を進行させる。なお、ステップSA04からステップSA07までの報酬Rを求める処理及び価値関数の更新処理は、判定データDに含まれるそれぞれのデータについて実行される。
【0053】
前述した強化学習を進める際に、例えばニューラルネットワークを応用することができる。図7Aは、ニューロンのモデルを模式的に示す。図7Bは、図7Aに示すニューロンを組み合わせて構成した三層のニューラルネットワークのモデルを模式的に示す。ニューラルネットワークは、例えば、ニューロンのモデルを模した演算装置や記憶装置等によって構成できる。
【0054】
図7Aに示すニューロンは、複数の入力x(ここでは一例として、入力x1〜入力x3)に対する結果yを出力するものである。各入力x1〜x3には、この入力xに対応する重みw(w1〜w3)が掛けられる。これにより、ニューロンは、次の数2式により表現される出力yを出力する。なお、数2式において、入力x、出力y及び重みwは、すべてベクトルである。また、θはバイアスであり、fkは活性化関数である。
【0055】
【数2】
【0056】
図7Bに示す三層のニューラルネットワークは、左側から複数の入力x(ここでは一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは一例として、結果y1〜結果y3)が出力される。図示の例では、入力x1、x2、x3のそれぞれに対応の重み(総称してw1で表す)が乗算されて、個々の入力x1、x2、x3がいずれも3つのニューロンN11、N12、N13に入力されている。
【0057】
図7Bでは、ニューロンN11〜N13の各々の出力を、総称してz1で表す。z1は、入カベクトルの特徴量を抽出した特徴ベクトルと見なすことができる。図示の例では、特徴ベクトルz1のそれぞれに対応の重み(総称してw2で表す)が乗算されて、個々の特徴ベクトルz1がいずれも2つのニューロンN21、N22に入力されている。特徴ベクトルz1は、重みW1と重みW2との間の特徴を表す。
【0058】
図7Bでは、ニューロンN21〜N22の各々の出力を、総称してz2で表す。z2は、特徴ベクトルz1の特徴量を抽出した特徴ベクトルと見なすことができる。図示の例では、特徴ベクトルz2のそれぞれに対応の重み(総称してw3で表す)が乗算されて、個々の特徴ベクトルz2がいずれも3つのニューロンN31、N32、N33に入力されている。特徴ベクトルz2は、重みW2と重みW3との間の特徴を表す。最後にニューロンN31〜N33は、それぞれ結果y1〜y3を出力する。
なお、三層以上の層を為すニューラルネットワークを用いた、いわゆるディープラーニングの手法を用いることも可能である。
【0059】
プログラマブルコントローラ1が備える機械学習装置100においては、ニューラルネットワークをQ学習における価値関数として用い、状態変数Sと行動aとを入力xとして、学習部110が上記したニューラルネットワークに従う多層構造の演算を行うことで、当該状態における当該行動の価値(結果y)を出力することもできる。なお、ニューラルネットワークの動作モードには、学習モードと価値予測モードとがあり、例えば学習モードで学習データセットを用いて重みwを学習し、学習した重みwを用いて価値予測モードで行動の価値判断を行うことができる。なお価値予測モードでは、検出、分類、推論等を行うこともできる。
【0060】
上記したプログラマブルコントローラ1の構成は、プロセッサ101が実行する機械学習方法(或いはソフトウェア)として記述できる。この機械学習方法は、動作周期毎のシーケンスプログラムの実行時間配分の変更を学習する機械学習方法であって、コンピュータのCPUが、実行時間配分データS1、動作ステージデータS2、及び機械動作パターンデータS3を、加工システムが動作する環境の現在状態を表す状態変数Sとして観測するステップと、変更された実行時間配分に基づく加工システムの動作ステージにおけるサイクルタイムの適否判定結果を示す判定データDを取得するステップと、状態変数Sと判定データDとを用いて、動作ステージデータS2及び機械動作パターンデータS3と、動作周期毎のシーケンスプログラムの実行時間配分の変更とを関連付けて学習するステップとを有する。
【0061】
以上、本発明の実施の形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
【0062】
例えば、機械学習装置100が実行する学習アルゴリズムや演算アルゴリズム、プログラマブルコントローラ1が実行する制御アルゴリズム等は、上述したものに限定されず、様々なアルゴリズムを採用できる。
【0063】
また、上記した実施形態ではプログラマブルコントローラ1と機械学習装置100が異なるCPUを有する装置として説明しているが、機械学習装置100はプログラマブルコントローラ1が備えるプロセッサ11と、ROM12に記憶されるシステム・プログラムにより実現するようにしても良い。
【符号の説明】
【0064】
1 プログラマブルコントローラ
2 I/Oユニット
3 機械
4 撮像装置
11 プロセッサ
12 ROM
13 RAM
14 不揮発性メモリ
16,17,18,19 インタフェース
20 バス
21 インタフェース
34 時間配分設定部
36 ステージ解析部
38 計測部
70 表示装置
71 入力装置
100 機械学習装置
101 プロセッサ
102 ROM
103 RAM
104 不揮発性メモリ
106 状態観測部
108 判定データ取得部
110 学習部
112 報酬計算部
114 価値関数更新部
122 意思決定部
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図8】