Agile-data-science-extracting-features-with-pyspark
提供:Dev Guides
PySparkを使用した機能の抽出
この章では、Agile Data ScienceのPySparkで抽出機能を適用する方法について学習します。
Sparkの概要
Apache Sparkは、高速のリアルタイム処理フレームワークとして定義できます。 リアルタイムでデータを分析するための計算を行います。 Apache Sparkは、ストリーム処理システムとしてリアルタイムで導入され、バッチ処理も処理できます。 Apache Sparkは、インタラクティブクエリと反復アルゴリズムをサポートしています。
Sparkは「Scalaプログラミング言語」で書かれています。
PySparkは、PythonとSparkの組み合わせと考えることができます。 PySparkは、Python APIをSparkコアにリンクし、Sparkコンテキストを初期化するPySparkシェルを提供します。 前の章で説明したように、ほとんどのデータサイエンティストは追跡機能にPySparkを使用します。
この例では、countsと呼ばれるデータセットを構築し、特定のファイルに保存するための変換に焦点を当てます。
text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")
PySparkを使用すると、ユーザーはPythonプログラミング言語でRDDを操作できます。 これには、データドリブンドキュメントとコンポーネントの基本をカバーする組み込みライブラリが役立ちます。