PySpark-はじめに

この章では、Apache Sparkとは何か、PySparkはどのように開発されたのかを理解します。

Spark –概要

Apache Sparkは、超高速のリアルタイム処理フレームワークです。メモリ内の計算を実行して、データをリアルタイムで分析します。 Apache Hadoop MapReduce がバッチ処理のみを実行しており、リアルタイム処理機能が欠けていたため、それが明らかになりました。そのため、Apache Sparkは、ストリーム処理をリアルタイムで実行でき、バッチ処理も行えるため導入されました。

リアルタイムおよびバッチ処理とは別に、Apache Sparkは対話型クエリと反復アルゴリズムもサポートしています。 Apache Sparkには、アプリケーションをホストできる独自のクラスターマネージャーがあります。ストレージと処理の両方にApache Hadoopを活用します。ストレージには HDFS （Hadoop分散ファイルシステム）を使用し、 YARN でもSparkアプリケーションを実行できます。

PySpark –概要

Apache Sparkは* Scalaプログラミング言語*で記述されています。 SparkでPythonをサポートするために、Apache Spark CommunityはPySparkというツールをリリースしました。 PySparkを使用すると、Pythonプログラミング言語で RDD を操作することもできます。これを実現できるのは、 Py4j というライブラリーがあるためです。

PySparkは、Python APIをスパークコアにリンクし、Sparkコンテキストを初期化する PySpark Shell を提供します。多くのデータサイエンティストと分析の専門家は、その豊富なライブラリセットのためにPythonを使用しています。 PythonとSparkを統合することは、彼らにとって大きな恩恵です。

Pyspark-introduction

PySpark-はじめに

Spark –概要

PySpark –概要