Spark-sql-json-datasets
Spark SQL-JSONデータセット
Spark SQLは、JSONデータセットのスキーマを自動的にキャプチャし、それをDataFrameとしてロードできます。 この変換は、ストリングのRDDまたはJSONファイルで* SQLContext.read.json()*を使用して実行できます。
Spark SQLは、データの読み取りと書き込みの両方のためにJSONスキーマの自動キャプチャとともにJSONデータをクエリするオプションを提供します。 Spark SQLはJSONデータのネストされたフィールドを理解し、ユーザーが明示的な変換なしでこれらのフィールドに直接アクセスできるようにします。
例
次の内容で employee.json という名前のJSONドキュメントを読み取り、JSONドキュメントのスキーマに基づいてテーブルを生成します。
特定のデータに対していくつかのデータフレーム操作を実行してみましょう。
データフレーム操作
DataFrameは、構造化データ操作のためのドメイン固有の言語を提供します。 ここでは、DataFrameを使用した構造化データ処理の基本的な例をいくつか示します。
以下の手順に従って、DataFrame操作を実行します-
JSONドキュメントを読む
まず、JSONドキュメントを読む必要があります。 それに基づいて、 dfs という名前のDataFrameを生成します。
次のコマンドを使用して、フィールド-id、name、およびageを含む employee.json という名前のJSONドキュメントを読み取ります。 dfs という名前のDataFrameを作成します。
出力-フィールド名は employee.json から自動的に取得されます。
printSchemaメソッドを使用する
DataFrameの構造(スキーマ)を表示するには、次のコマンドを使用します。
出力
データを表示する
DataFrameにデータを表示する場合は、次のコマンドを使用します。
出力-従業員データを表形式で表示できます。
その後、さまざまなSQLステートメントを実行できます。 ユーザーは、データソースの出所に関係なく、最小限の労力でJSON形式にデータを移行できます。