H2o-introduction

提供:Dev Guides
移動先:案内検索

H2O-はじめに

巨大なデータベースで機械学習モデルを開発するように依頼されたことはありますか? 通常、顧客はデータベースを提供し、潜在的な買い手はだれであるかなどの特定の予測を行うように求めます。不正なケースなどを早期に検出できる場合 これらの質問に答えるために、あなたの仕事は、顧客のクエリに答えを提供する機械学習アルゴリズムを開発することです。 機械学習アルゴリズムをゼロから開発するのは簡単な作業ではありません。市場ですぐに使用できる機械学習ライブラリがいくつかあるのに、なぜこれを行う必要があるのでしょうか。

最近では、これらのライブラリを使用し、これらのライブラリから十分にテストされたアルゴリズムを適用して、そのパフォーマンスを確認します。 パフォーマンスが許容範囲内にない場合は、現在のアルゴリズムを微調整するか、まったく異なるアルゴリズムを試してください。

同様に、同じデータセットで複数のアルゴリズムを試してから、顧客の要件を十分に満たす最適なアルゴリズムを選択できます。 これは、H2Oがあなたを救う場所です。 これは、広く受け入れられているいくつかのMLアルゴリズムの完全にテストされた実装を備えたオープンソースの機械学習フレームワークです。 巨大なリポジトリからアルゴリズムを選択して、データセットに適用するだけです。 最も広く使用されている統計アルゴリズムとMLアルゴリズムが含まれています。

ここでいくつか言及すると、勾配ブーストマシン(GBM)、一般化線形モデル(GLM)、深層学習などが含まれます。 データセット上のさまざまなアルゴリズムのパフォーマンスをランク付けするAutoML機能もサポートしているだけでなく、最高のパフォーマンスモデルを見つける手間を削減します。 H2Oは18000以上の組織で世界中で使用されており、開発を容易にするためにRおよびPythonとうまく連携しています。 優れたパフォーマンスを提供するインメモリプラットフォームです。

このチュートリアルでは、まずPythonオプションとRオプションの両方を使用してマシンにH2Oをインストールする方法を学びます。 コマンドラインでこれを使用する方法を理解するので、その動作をラインごとに理解できます。 Pythonが好きな人は、H2Oアプリケーションの開発にJupyterまたはその他の任意のIDEを使用できます。 Rを希望する場合は、RStudioを開発に使用できます。

このチュートリアルでは、H2Oの操作方法を理解するための例を検討します。 また、プログラムコードのアルゴリズムを変更し、そのパフォーマンスを以前のアルゴリズムと比較する方法も学習します。 H2Oは、データセットのさまざまなアルゴリズムをテストするためのWebベースのツールも提供します。 これはフローと呼ばれます。

チュートリアルでは、Flowの使用方法を紹介します。 同時に、データセットで最高のパフォーマンスのアルゴリズムを識別するAutoMLの使用について説明します。 H2Oを学ぶことに興奮していませんか? 読み続けます!