Tensorflow-distributed-computing

提供:Dev Guides
移動先:案内検索

TensorFlow-分散コンピューティング

この章では、分散TensorFlowを開始する方法に焦点を当てます。 目的は、TFサーバーなど、繰り返し発生する基本的な分散TFの概念を開発者が理解できるようにすることです。 Jupyter Notebookを使用して、分散TensorFlowを評価します。 TensorFlowを使用した分散コンピューティングの実装については、以下で説明します-

  • ステップ1 *-分散コンピューティングに必須の必要なモジュールをインポートします-
import tensorflow as tf
  • ステップ2 *-1つのノードでTensorFlowクラスターを作成します。 このノードは、「worker」という名前のジョブを処理し、localhost:2222で1つのテイクを実行します。
cluster_spec = tf.train.ClusterSpec({'worker' : ['localhost:2222']})
server = tf.train.Server(cluster_spec)
server.target

上記のスクリプトは、次の出力を生成します-

'grpc://localhost:2222'
The server is currently running.
  • ステップ3 *-各セッションのサーバー構成は、次のコマンドを実行して計算できます-
server.server_def

上記のコマンドは、次の出力を生成します-

cluster {
   job {
      name: "worker"
      tasks {
         value: "localhost:2222"
      }
   }
}
job_name: "worker"
protocol: "grpc"

ステップ4 *-サーバーである実行エンジンでTensorFlowセッションを起動します。 TensorFlowを使用してローカルサーバーを作成し、 *lsof を使用してサーバーの場所を見つけます。

sess = tf.Session(target = server.target)
server = tf.train.Server.create_local_server()
  • ステップ5 *-このセッションで利用可能なデバイスを表示し、それぞれのセッションを閉じます。
devices = sess.list_devices()
for d in devices:
   print(d.name)
sess.close()

上記のコマンドは、次の出力を生成します-

/job:worker/replica:0/task:0/device:CPU:0