Sqoop-introduction

提供:Dev Guides
移動先:案内検索

Sqoop-はじめに

従来のアプリケーション管理システム、つまり、RDBMSを使用したアプリケーションとリレーショナルデータベースの相互作用は、ビッグデータを生成するソースの1つです。 RDBMSによって生成されるこのようなビッグデータは、リレーショナルデータベース構造のリレーショナル*データベースサーバー*に保存されます。

MapReduce、Hive、HBase、Cassandra、Pigなどのビッグデータストレージおよびアナライザー Hadoopエコシステムの一部が姿を現したため、リレーショナルデータベースサーバーと対話して、そこにあるビッグデータをインポートおよびエクスポートするためのツールが必要でした。 ここで、Sqoopは、Hadoopエコシステムで、リレーショナルデータベースサーバーとHadoopのHDFSの間の実行可能な相互作用を提供します。

*Sqoop* -「SQL to HadoopおよびHadoop to SQL」

Sqoopは、Hadoopとリレーショナルデータベースサーバー間でデータを転送するために設計されたツールです。 MySQL、OracleなどのリレーショナルデータベースからHadoop HDFSへのデータのインポート、およびHadoopファイルシステムからリレーショナルデータベースへのエクスポートに使用されます。 Apache Software Foundationによって提供されます。

Sqoopの仕組み

次の画像は、Sqoopのワークフローを説明しています。

Sqoop Work

Sqoopインポート

インポートツールは、RDBMSからHDFSに個々のテーブルをインポートします。 テーブルの各行は、HDFSのレコードとして扱われます。 すべてのレコードは、テキストファイルにテキストデータとして保存されるか、Avroおよびシーケンスファイルにバイナリデータとして保存されます。

Sqoopエクスポート

エクスポートツールは、一連のファイルをHDFSからRDBMSにエクスポートします。 Sqoopへの入力として指定されたファイルには、テーブルの行と呼ばれるレコードが含まれています。 これらは読み取られ、解析されて一連のレコードになり、ユーザー指定の区切り文字で区切られます。