Agile-data-science-extracting-features-with-pyspark

提供:Dev Guides
移動先:案内検索

PySparkを使用した機能の抽出

この章では、Agile Data ScienceのPySparkで抽出機能を適用する方法について学習します。

Sparkの概要

Apache Sparkは、高速のリアルタイム処理フレームワークとして定義できます。 リアルタイムでデータを分析するための計算を行います。 Apache Sparkは、ストリーム処理システムとしてリアルタイムで導入され、バッチ処理も処理できます。 Apache Sparkは、インタラクティブクエリと反復アルゴリズムをサポートしています。

Sparkは「Scalaプログラミング言語」で書かれています。

PySparkは、PythonとSparkの組み合わせと考えることができます。 PySparkは、Python APIをSparkコアにリンクし、Sparkコンテキストを初期化するPySparkシェルを提供します。 前の章で説明したように、ほとんどのデータサイエンティストは追跡機能にPySparkを使用します。

この例では、countsと呼ばれるデータセットを構築し、特定のファイルに保存するための変換に焦点を当てます。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

PySparkを使用すると、ユーザーはPythonプログラミング言語でRDDを操作できます。 これには、データドリブンドキュメントとコンポーネントの基本をカバーする組み込みライブラリが役立ちます。