Pyspark

提供:Dev Guides
2020年6月22日 (月) 23:22時点におけるMaintenance script (トーク | 投稿記録)による版 (Imported from text file)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

PySparkチュートリアル

Apache SparkはScalaプログラミング言語で書かれています。 SparkでPythonをサポートするために、Apache SparkコミュニティはツールPySparkをリリースしました。 PySparkを使用すると、Pythonプログラミング言語でRDDを操作することもできます。 これを実現できるのは、Py4jというライブラリーがあるためです。 これは入門チュートリアルであり、データドリブンドキュメントの基本をカバーし、そのさまざまなコンポーネントとサブコンポーネントを扱う方法を説明します。

聴衆

このチュートリアルは、プログラミング言語とリアルタイム処理フレームワークでキャリアを積もうとしている専門家を対象としています。 このチュートリアルの目的は、読者がPySparkをさまざまなモジュールやサブモジュールとともに使い始めるのを快適にすることです。

前提条件

このチュートリアルで提供されるさまざまな概念を進める前に、読者はプログラミング言語とフレームワークが何であるかをすでに知っていると想定されています。 これに加えて、読者がApache Spark、Apache Hadoop、Scalaプログラミング言語、Hadoop分散ファイルシステム(HDFS)、およびPythonの適切な知識を持っている場合、非常に役立ちます。