Spark-sql-data-sources

提供:Dev Guides
2020年6月22日 (月) 19:54時点におけるMaintenance script (トーク | 投稿記録)による版 (Imported from text file)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

Spark SQL-データソース

DataFrameインターフェースにより、さまざまなデータソースをSpark SQLで動作させることができます。 これは一時テーブルであり、通常のRDDとして操作できます。 DataFrameをテーブルとして登録すると、そのデータに対してSQLクエリを実行できます。

この章では、異なるSparkデータソースを使用してデータをロードおよび保存する一般的な方法について説明します。 その後、組み込みデータソースで使用可能な特定のオプションについて詳しく説明します。

SparkSQLで利用可能なデータソースにはさまざまな種類があり、その一部を以下に示します-

Sr. No Data Sources
1

JSON Datasets

Spark SQLは、JSONデータセットのスキーマを自動的にキャプチャし、それをDataFrameとしてロードできます。

2

Hive Tables

Hiveは、SQLContextを継承するHiveContextとしてSparkライブラリにバンドルされています。

3

Parquet Files

寄木細工は、多くのデータ処理システムでサポートされている円柱形式です。