Pyspark-environment-setup
提供:Dev Guides
PySpark-環境設定
この章では、PySparkの環境設定について理解します。
注-これは、コンピューターにJavaおよびScalaがインストールされていることを考慮しています。
次の手順でPySparkをダウンロードして設定しましょう。
ステップ1 *-公式のApache Spark downloadページにアクセスし、そこから入手できる最新バージョンのApache Sparkをダウンロードします。 このチュートリアルでは、 *spark-2.1.0-bin-hadoop2.7 を使用しています。
- ステップ2 *-次に、ダウンロードしたSpark tarファイルを抽出します。 デフォルトでは、ダウンロードディレクトリにダウンロードされます。
ディレクトリ spark-2.1.0-bin-hadoop2.7 が作成されます。 PySparkを開始する前に、次の環境を設定して、Sparkパスと* Py4jパス*を設定する必要があります。
または、上記の環境をグローバルに設定するには、それらを* .bashrcファイル*に入れます。 次に、環境が機能するように次のコマンドを実行します。
すべての環境が設定されたので、次のコマンドを実行してSparkディレクトリに移動し、PySparkシェルを呼び出しましょう-
これにより、PySparkシェルが起動します。