Pyspark-environment-setup
提供:Dev Guides
PySpark-環境設定
この章では、PySparkの環境設定について理解します。
注-これは、コンピューターにJavaおよびScalaがインストールされていることを考慮しています。
次の手順でPySparkをダウンロードして設定しましょう。
ステップ1 *-公式のApache Spark downloadページにアクセスし、そこから入手できる最新バージョンのApache Sparkをダウンロードします。 このチュートリアルでは、 *spark-2.1.0-bin-hadoop2.7 を使用しています。
- ステップ2 *-次に、ダウンロードしたSpark tarファイルを抽出します。 デフォルトでは、ダウンロードディレクトリにダウンロードされます。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
ディレクトリ spark-2.1.0-bin-hadoop2.7 が作成されます。 PySparkを開始する前に、次の環境を設定して、Sparkパスと* Py4jパス*を設定する必要があります。
export SPARK_HOME =/home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH
または、上記の環境をグローバルに設定するには、それらを* .bashrcファイル*に入れます。 次に、環境が機能するように次のコマンドを実行します。
# source .bashrc
すべての環境が設定されたので、次のコマンドを実行してSparkディレクトリに移動し、PySparkシェルを呼び出しましょう-
# ./bin/pyspark
これにより、PySparkシェルが起動します。
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/__/__ ___ _____//__
_\ \/_ \/_ `/__/ '_/
/__/.__/\_,_/_//_/\_\ version 2.1.0
/_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<