Pyspark-environment-setup

提供:Dev Guides
移動先:案内検索

PySpark-環境設定

この章では、PySparkの環境設定について理解します。

-これは、コンピューターにJavaおよびScalaがインストールされていることを考慮しています。

次の手順でPySparkをダウンロードして設定しましょう。

ステップ1 *-公式のApache Spark downloadページにアクセスし、そこから入手できる最新バージョンのApache Sparkをダウンロードします。 このチュートリアルでは、 *spark-2.1.0-bin-hadoop2.7 を使用しています。

  • ステップ2 *-次に、ダウンロードしたSpark tarファイルを抽出します。 デフォルトでは、ダウンロードディレクトリにダウンロードされます。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

ディレクトリ spark-2.1.0-bin-hadoop2.7 が作成されます。 PySparkを開始する前に、次の環境を設定して、Sparkパスと* Py4jパス*を設定する必要があります。

export SPARK_HOME =/home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

または、上記の環境をグローバルに設定するには、それらを* .bashrcファイル*に入れます。 次に、環境が機能するように次のコマンドを実行します。

# source .bashrc

すべての環境が設定されたので、次のコマンドを実行してSparkディレクトリに移動し、PySparkシェルを呼び出しましょう-

# ./bin/pyspark

これにより、PySparkシェルが起動します。

Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
    /__/__  ___ _____//__
    _\ \/_ \/_ `/__/ '_/
  /__/.__/\_,_/_//_/\_\   version 2.1.0
     /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<