Machine-learning-with-python-reinforcement-learning

提供:Dev Guides
移動先:案内検索

機械学習-強化学習

これらの方法は、以前に研究された方法とは異なり、非常にまれにしか使用されません。 この種の学習アルゴリズムには、特定の環境と対話できるように、一定期間トレーニングするエージェントが存在します。 エージェントは環境と対話するための一連の戦略に従い、環境を観察した後、環境の現在の状態に関するアクションを実行します。 以下は、強化学習方法の主な手順です。

  • *ステップ1 *-最初に、いくつかの初期戦略セットでエージェントを準備する必要があります。
  • *ステップ2 *-次に、環境とその現在の状態を観察します。
  • *ステップ3 *-次に、環境の現在の状態に関する最適なポリシーを選択し、重要なアクションを実行します。
  • *ステップ4 *-エージェントは、前のステップで実行されたアクションに従って、対応する報酬またはペナルティを取得できます。
  • *ステップ5 *-これで、必要に応じて戦略を更新できます。
  • *ステップ6 *-最後に、エージェントが学習して最適なポリシーを採用するまで、ステップ2〜5を繰り返します。