Pyspark-introduction

提供:Dev Guides
移動先:案内検索

PySpark-はじめに

この章では、Apache Sparkとは何か、PySparkはどのように開発されたのかを理解します。

Spark –概要

Apache Sparkは、超高速のリアルタイム処理フレームワークです。 メモリ内の計算を実行して、データをリアルタイムで分析します。 Apache Hadoop MapReduce がバッチ処理のみを実行しており、リアルタイム処理機能が欠けていたため、それが明らかになりました。 そのため、Apache Sparkは、ストリーム処理をリアルタイムで実行でき、バッチ処理も行えるため導入されました。

リアルタイムおよびバッチ処理とは別に、Apache Sparkは対話型クエリと反復アルゴリズムもサポートしています。 Apache Sparkには、アプリケーションをホストできる独自のクラスターマネージャーがあります。 ストレージと処理の両方にApache Hadoopを活用します。 ストレージには HDFS (Hadoop分散ファイルシステム)を使用し、 YARN でもSparkアプリケーションを実行できます。

PySpark –概要

Apache Sparkは* Scalaプログラミング言語*で記述されています。 SparkでPythonをサポートするために、Apache Spark CommunityはPySparkというツールをリリースしました。 PySparkを使用すると、Pythonプログラミング言語で RDD を操作することもできます。 これを実現できるのは、 Py4j というライブラリーがあるためです。

PySparkは、Python APIをスパークコアにリンクし、Sparkコンテキストを初期化する PySpark Shell を提供します。 多くのデータサイエンティストと分析の専門家は、その豊富なライブラリセットのためにPythonを使用しています。 PythonとSparkを統合することは、彼らにとって大きな恩恵です。