CentOS7にClickHouseをインストールして使用する方法
著者は、 Write for DOnations プログラムの一環として、 Free and Open SourceFundを選択して寄付を受け取りました。
序章
ClickHouse は、OLAPおよびビッグデータのユースケース向けにYandexによって作成されたオープンソースの列指向分析データベースです。 ClickHouseはリアルタイムのクエリ処理をサポートしているため、1秒未満の分析結果を必要とするアプリケーションに適しています。 ClickHouseのクエリ言語はSQLの方言であり、強力な宣言型クエリ機能を可能にすると同時に、エンドユーザーに親しみやすさと学習曲線を提供します。
列指向データベースは、行ではなく列でグループ化されたブロックにレコードを格納します。 クエリに存在しない列のデータをロードしないことにより、列指向データベースはクエリの完了中にデータを読み取る時間を短縮します。 その結果、これらのデータベースは、OLAPなどの特定のワークロードに対して、従来の行ベースのシステムよりもはるかに高速に結果を計算して返すことができます。
オンライン分析処理(OLAP)システムを使用すると、大量のデータを整理し、複雑なクエリを実行できます。 ペタバイトのデータを管理し、クエリ結果をすばやく返すことができます。 このように、OLAPは、データサイエンスやビジネス分析などの分野での作業に役立ちます。
このチュートリアルでは、ClickHouseデータベースサーバーとクライアントをマシンにインストールします。 通常のタスクにはDBMSを使用し、オプションで別のサーバーからのリモートアクセスを有効にして、別のマシンからデータベースに接続できるようにします。 次に、サンプルのWebサイト訪問データをモデル化してクエリすることにより、ClickHouseをテストします。
前提条件
sudo
が有効な非rootユーザーとファイアウォールのセットアップを備えた1台のCentOS7サーバー。 サーバーの初期設定tutorialに従ってユーザーを作成し、このtutorialに従ってファイアウォールを設定できます。- (オプション)
sudo
が有効になっている非rootユーザーとファイアウォールのセットアップを備えたセカンダリCentOS7サーバー。 サーバーの初期設定チュートリアルとファイアウォールの追加設定チュートリアルに従うことができます。
ステップ1—ClickHouseのインストール
このセクションでは、yum
を使用してClickHouseサーバーおよびクライアントプログラムをインストールします。
まず、次のコマンドを実行してサーバーにSSH接続します。
ssh sammy@your_server_ip
以下を実行して、基本依存関係をインストールします。
sudo yum install -y pygpgme yum-utils
pygpgme
パッケージは、GPG署名の追加と検証に使用され、yum-utils
はソースRPMの管理を容易にします。
ClickHouseコンサルティング会社であるAltinityは、最新バージョンのClickHouseを含むYUMリポジトリを維持しています。 ファイルを作成して、検証済みのClickHouseパッケージを安全にダウンロードするために、リポジトリの詳細を追加します。 パッケージの内容を確認するには、このGithubプロジェクトでそれらがビルドされたソースを調べることができます。
以下を実行して、リポジトリ詳細ファイルを作成します。
sudo vi /etc/yum.repos.d/altinity_clickhouse.repo
次に、次の内容をファイルに追加します。
/etc/yum.repos.d/altinity_clickhouse.repo
[altinity_clickhouse] name=altinity_clickhouse baseurl=https://packagecloud.io/altinity/clickhouse/el/7/$basearch repo_gpgcheck=1 gpgcheck=0 enabled=1 gpgkey=https://packagecloud.io/altinity/clickhouse/gpgkey sslverify=1 sslcacert=/etc/pki/tls/certs/ca-bundle.crt metadata_expire=300 [altinity_clickhouse-source] name=altinity_clickhouse-source baseurl=https://packagecloud.io/altinity/clickhouse/el/7/SRPMS repo_gpgcheck=1 gpgcheck=0 enabled=1 gpgkey=https://packagecloud.io/altinity/clickhouse/gpgkey sslverify=1 sslcacert=/etc/pki/tls/certs/ca-bundle.crt metadata_expire=300
リポジトリを追加したので、次のコマンドでリポジトリを有効にします。
sudo yum -q makecache -y --disablerepo='*' --enablerepo='altinity_clickhouse'
-q
フラグは、コマンドにクワイエットモードで実行するように指示します。 makecache
コマンドは、--enablerepo
フラグで指定されたパッケージを使用可能にします。
実行すると、次のような出力が表示されます。
OutputImporting GPG key 0x0F6E36F6: Userid : "https://packagecloud.io/altinity/clickhouse (https://packagecloud.io/docs#gpg_signing) <[email protected]>" Fingerprint: 7001 38a9 6a20 6b22 bf28 3c06 ed26 58f3 0f6e 36f6 From : https://packagecloud.io/altinity/clickhouse/gpgkey
出力は、GPGキーが正常に検証および追加されたことを確認します。
clickhouse-server
およびclickhouse-client
パッケージがインストール可能になります。 それらをインストールします:
sudo yum install -y clickhouse-server clickhouse-client
ClickHouseサーバーとクライアントが正常にインストールされました。 これで、データベースサービスを開始し、正しく実行されていることを確認する準備が整いました。
ステップ2—サービスを開始する
前のセクションでインストールしたclickhouse-server
パッケージは、データベースサーバーの起動、停止、再起動などのアクションを実行するsystemd
サービスを作成します。 systemd は、Linuxがサービスを初期化および管理するためのinitシステムです。 このセクションでは、サービスを開始し、正常に実行されていることを確認します。
次のコマンドを実行して、clickhouse-server
サービスを開始します。
sudo service clickhouse-server start
次のような出力が表示されます。
OutputStart clickhouse-server service: Path to data directory in /etc/clickhouse-server/config.xml: /var/lib/clickhouse/ DONE
サービスが正常に実行されていることを確認するには、次を実行します。
sudo service clickhouse-server status
サーバーが正常に実行されていることを示す次のような出力が出力されます。
Outputclickhouse-server service is running
これでClickHouseサーバーが正常に起動し、clickhouse-client
CLIプログラムを使用してサーバーに接続できるようになります。
ステップ3—データベースとテーブルの作成
ClickHouseでは、インタラクティブなデータベースプロンプトでSQLステートメントを直接実行することにより、データベースを作成および削除できます。 ステートメントは、必要なデータとともに要求された操作を実行するようにデータベースサーバーに指示する特定の構文に従うコマンドで構成されます。 CREATE DATABASE table_name
構文を使用してデータベースを作成します。 データベースを作成するには、最初に次のコマンドを実行してクライアントセッションを開始します。
clickhouse-client --multiline
このコマンドは、クライアントプロンプトにログインし、ClickHouseSQLステートメントを実行して次のようなアクションを実行できます。
- データベース、テーブル、インデックス、パーティション、およびビューの作成、更新、および削除。
- クエリを実行して、さまざまな条件を使用してオプションでフィルタリングおよびグループ化されたデータを取得します。
--multiline
フラグは、複数行にまたがるクエリの入力を許可するようにCLIに指示します。
このステップでは、ClickHouseクライアントでデータを挿入する準備ができたら、データベースとテーブルを作成します。 このチュートリアルでは、test
という名前のデータベースを作成し、その中にvisits
という名前のテーブルを作成してWebサイトへのアクセス時間を追跡します。
ClickHouseコマンドプロンプトが表示されたら、次のコマンドを実行してtest
データベースを作成します。
CREATE DATABASE test;
データベースを作成したことを示す次の出力が表示されます。
Output CREATE DATABASE test Ok. 0 rows in set. Elapsed: 0.003 sec.
ClickHouseテーブルは、他のリレーショナルデータベースのテーブルに似ています。 構造化された形式で関連データのコレクションを保持します。 列とそのタイプを指定したり、データの行を追加したり、テーブルに対してさまざまな種類のクエリを実行したりできます。
ClickHouseでテーブルを作成するための構文は、次の構造例に従います。
CREATE TABLE table_name ( column_name1 column_type [options], column_name2 column_type [options], ... ) ENGINE = engine
table_name
およびcolumn_name
の値は、任意の有効なASCII識別子にすることができます。 ClickHouseは、さまざまな種類の列をサポートしています。 最も人気のあるもののいくつかは次のとおりです。
UInt64
:0〜18446744073709551615の範囲の整数値を格納するために使用されます。Float64
:2039.23、10.5などの浮動小数点数を格納するために使用されます。String
:可変長文字を格納するために使用されます。 任意の長さを格納できるため、maxlength属性は必要ありません。Date
:YYYY-MM-DD
形式に従う日付を保存するために使用されます。DateTime
:日付と時刻を格納するために使用され、YYYY-MM-DD HH:MM:SS
形式に従います。
列定義の後で、テーブルに使用されるエンジンを指定します。 ClickHouseでは、 Engines が、基になるデータの物理構造、テーブルのクエリ機能、同時アクセスモード、およびインデックスのサポートを決定します。 さまざまなエンジンタイプがさまざまなアプリケーション要件に適しています。 最も一般的に使用され、広く適用可能なエンジンタイプはMergeTree
です。
テーブル作成の概要がわかったので、テーブルを作成します。 変更するデータベースを確認することから始めます。
USE test;
default
データベースからtest
データベースに切り替えたことを示す次の出力が表示されます。
Output USE test Ok. 0 rows in set. Elapsed: 0.001 sec.
このガイドの残りの部分では、このデータベースのコンテキスト内でステートメントを実行していることを前提としています。
次のコマンドを実行して、visits
テーブルを作成します。
CREATE TABLE visits ( id UInt64, duration Float64, url String, created DateTime ) ENGINE = MergeTree() PRIMARY KEY id ORDER BY id;
コマンドの機能の内訳は次のとおりです。 次の4つの列を持つvisits
という名前のテーブルを作成します。
id
:主キー列。 他のRDBMSシステムと同様に、ClickHouseの主キー列は行を一意に識別します。 各行には、この列の一意の値が必要です。duration
:各訪問の期間を秒単位で保存するために使用されるフロート列。float
列には、12.50などの10進値を格納できます。url
:http://example.com
など、アクセスしたURLを格納する文字列列。created
:訪問がいつ発生したかを追跡する日付と時刻の列。
列定義の後で、テーブルのストレージエンジンとしてMergeTree
を指定します。 MergeTreeファミリーのエンジンは、大規模なリアルタイム挿入の最適化されたサポート、全体的な堅牢性、およびクエリのサポートにより、本番データベースに推奨されます。 さらに、MergeTreeエンジンは、主キーによる行の並べ替え、行のパーティション化、およびデータの複製とサンプリングをサポートします。
ClickHouseを使用して、頻繁にクエリされないデータをアーカイブしたり、一時データを保存したりする場合は、エンジンのログファミリーを使用して、そのユースケースに最適化できます。
列を定義した後、他のテーブルレベルのオプションを定義します。 PRIMARY KEY
句は、id
を主キー列として設定し、ORDER BY
句は、id
列でソートされた値を格納します。 主キーは行を一意に識別し、単一の行に効率的にアクセスし、行を効率的にコロケーションするために使用されます。
createステートメントを実行すると、次の出力が表示されます。
OutputCREATE TABLE visits ( id UInt64, duration Float64, url String, created DateTime ) ENGINE = MergeTree() PRIMARY KEY id ORDER BY id Ok. 0 rows in set. Elapsed: 0.010 sec.
このセクションでは、Webサイト訪問データを追跡するためのデータベースとテーブルを作成しました。 次のステップでは、テーブルにデータを挿入し、既存のデータを更新して、そのデータを削除します。
ステップ4—データと列の挿入、更新、および削除
このステップでは、visits
テーブルを使用して、データを挿入、更新、および削除します。 次のコマンドは、ClickHouseテーブルに行を挿入するための構文の例です。
INSERT INTO table_name VALUES (column_1_value, column_2_value, ....);
次に、次の各ステートメントを実行して、サンプルのWebサイト訪問データをvisits
テーブルに数行挿入します。
INSERT INTO visits VALUES (1, 10.5, 'http://example.com', '2019-01-01 00:01:01');
INSERT INTO visits VALUES (2, 40.2, 'http://example1.com', '2019-01-03 10:01:01');
INSERT INTO visits VALUES (3, 13, 'http://example2.com', '2019-01-03 12:01:01');
INSERT INTO visits VALUES (4, 2, 'http://example3.com', '2019-01-04 02:01:01');
挿入ステートメントごとに次の出力が繰り返されます。
Output INSERT INTO visits VALUES Ok. 1 rows in set. Elapsed: 0.004 sec.
各行の出力は、visits
テーブルに正常に挿入されたことを示しています。
次に、visits
テーブルに列を追加します。 既存のテーブルから列を追加または削除する場合、ClickHouseはALTER
構文をサポートします。
たとえば、テーブルに列を追加するための基本的な構文は次のとおりです。
ALTER TABLE table_name ADD COLUMN column_name column_type;
次のステートメントを実行して、Webサイトへのアクセスの場所を格納するlocation
という名前の列を追加します。
ALTER TABLE visits ADD COLUMN location String;
次のような出力が表示されます。
OutputALTER TABLE visits ADD COLUMN location String Ok. 0 rows in set. Elapsed: 0.014 sec.
出力は、location
列が正常に追加されたことを示しています。
バージョン19.4.3の時点で、ClickHouseは、実装上の制約により、データの個々の行の更新と削除をサポートしていません。 ClickHouseは一括更新と削除をサポートしていますが、これらの操作の非標準的な使用法を強調するための明確なSQL構文があります。
次の構文は、行を一括更新するための例です。
ALTER TABLE table_name UPDATE column_1 = value_1, column_2 = value_2 ... WHERE filter_conditions;
次のステートメントを実行して、duration
が15未満のすべての行のurl
列を更新します。 これをデータベースプロンプトに入力して実行します。
ALTER TABLE visits UPDATE url = 'http://example2.com' WHERE duration < 15;
一括更新ステートメントの出力は次のようになります。
Output ALTER TABLE visits UPDATE url = 'http://example2.com' WHERE duration < 15 Ok. 0 rows in set. Elapsed: 0.003 sec.
出力は、更新クエリが正常に完了したことを示しています。 出力の0 rows in set
は、クエリが行を返さなかったことを示します。 これは、更新および削除クエリの場合に当てはまります。
行の一括削除の構文例は、行の更新に似ており、次の構造になっています。
ALTER TABLE table_name DELETE WHERE filter_conditions;
データの削除をテストするには、次のステートメントを実行して、duration
が5未満のすべての行を削除します。
ALTER TABLE visits DELETE WHERE duration < 5;
一括削除ステートメントの出力は次のようになります。
Output ALTER TABLE visits DELETE WHERE duration < 5 Ok. 0 rows in set. Elapsed: 0.003 sec.
出力は、5秒未満の期間で行を削除したことを確認します。
テーブルから列を削除するための構文は、次の構造例に従います。
ALTER TABLE table_name DROP COLUMN column_name;
次のコマンドを実行して、前に追加したlocation
列を削除します。
ALTER TABLE visits DROP COLUMN location;
列を削除したことを確認するDROP COLUMN
出力は、次のようになります。
OutputALTER TABLE visits DROP COLUMN location String Ok. 0 rows in set. Elapsed: 0.010 sec.
visits
テーブルに行と列を正常に挿入、更新、および削除したので、次のステップでデータのクエリに進みます。
ステップ5—データのクエリ
ClickHouseのクエリ言語は、分析ワークロードに適した拡張機能と機能を備えたSQLのカスタム方言です。 このステップでは、選択クエリと集計クエリを実行して、visits
テーブルからデータと結果を取得します。
選択クエリを使用すると、指定した条件でフィルタリングされたデータの行と列を、返す行数などのオプションとともに取得できます。 SELECT
構文を使用して、データの行と列を選択できます。 SELECT
クエリの基本的な構文は次のとおりです。
SELECT func_1(column_1), func_2(column_2) FROM table_name WHERE filter_conditions row_options;
次のステートメントを実行して、url
がhttp://example.com
である行のurl
およびduration
の値を取得します。
SELECT url, duration FROM visits WHERE url = 'http://example2.com' LIMIT 2;
次の出力が表示されます。
OutputSELECT url, duration FROM visits WHERE url = 'http://example2.com' LIMIT 2 ┌─url─────────────────┬─duration─┐ │ http://example2.com │ 10.5 │ └─────────────────────┴──────────┘ ┌─url─────────────────┬─duration─┐ │ http://example2.com │ 13 │ └─────────────────────┴──────────┘ 2 rows in set. Elapsed: 0.013 sec.
出力は、指定した条件に一致する2つの行を返しました。 値を選択したので、集計クエリの実行に移ることができます。
集約クエリは、一連の値を操作し、単一の出力値を返すクエリです。 分析データベースでは、これらのクエリは頻繁に実行され、データベースによって十分に最適化されています。 ClickHouseでサポートされているいくつかの集計関数は次のとおりです。
count
:指定された条件に一致する行の数を返します。sum
:選択した列の値の合計を返します。avg
:選択した列の値の平均を返します。
ClickHouse固有の集計関数には次のものがあります。
uniq
:一致した個別の行のおおよその数を返します。topK
:近似アルゴリズムを使用して、特定の列の最も頻度の高い値の配列を返します。
集計クエリの実行を示すために、sum
クエリを実行して、合計訪問時間を計算します。
SELECT SUM(duration) FROM visits;
次のような出力が表示されます。
Output SELECT SUM(duration) FROM visits ┌─SUM(duration)─┐ │ 63.7 │ └───────────────┘ 1 rows in set. Elapsed: 0.010 sec.
次に、以下を実行して上位2つのURLを計算します。
SELECT topK(2)(url) FROM visits;
次のような出力が表示されます。
OutputSELECT topK(2)(url) FROM visits ┌─topK(2)(url)──────────────────────────────────┐ │ ['http://example2.com','http://example1.com'] │ └───────────────────────────────────────────────┘ 1 rows in set. Elapsed: 0.010 sec.
visits
テーブルのクエリが正常に完了したので、次の手順でテーブルとデータベースを削除します。
ステップ6—テーブルとデータベースの削除
このセクションでは、visits
テーブルとtest
データベースを削除します。
テーブルを削除するための構文は、次の例に従います。
DROP TABLE table_name;
visits
テーブルを削除するには、次のステートメントを実行します。
DROP TABLE visits;
テーブルが正常に削除されたことを宣言する次の出力が表示されます。
OutputDROP TABLE visits Ok. 0 rows in set. Elapsed: 0.005 sec.
DROP database table_name
構文を使用してデータベースを削除できます。 test
データベースを削除するには、次のステートメントを実行します。
DROP DATABASE test;
結果の出力は、データベースが正常に削除されたことを示しています。
Output DROP DATABASE test Ok. 0 rows in set. Elapsed: 0.003 sec.
このステップでテーブルとデータベースを削除しました。 ClickHouseインスタンスでデータベース、テーブル、およびデータを作成、更新、および削除したので、次のセクションでデータベースサーバーへのリモートアクセスを有効にします。
手順7—ファイアウォールルールの設定(オプション)
同じサーバーで実行されているアプリケーションでClickHouseをローカルでのみ使用する場合、またはサーバーでファイアウォールを有効にしていない場合は、このセクションを完了する必要はありません。 代わりに、ClickHouseデータベースサーバーにリモートで接続する場合は、この手順に従う必要があります。
現在、サーバーでファイアウォールが有効になっているため、パブリックIPアドレスがすべてのポートにアクセスできなくなります。 リモートアクセスを許可するには、次の2つの手順を実行します。
- ClickHouseサーバーが実行するHTTPポートであるポート
8123
への着信接続を許可するファイアウォールルールを追加します。
データベースプロンプト内にいる場合は、CTRL+D
と入力して終了します。
次のコマンドを実行して、構成ファイルを編集します。
sudo vi /etc/clickhouse-server/config.xml
次に、次のファイルのように、<!-- <listen_host>0.0.0.0</listen_host> -->
を含む行のコメントを解除します。
/etc/clickhouse-server/config.xml
... <interserver_http_host>example.yandex.ru</interserver_http_host> --> <!-- Listen specified host. use :: (wildcard IPv6 address), if you want to accept connections both with IPv4 and IPv6 from everywhere. --> <!-- <listen_host>::</listen_host> --> <!-- Same for hosts with disabled ipv6: --> <listen_host>0.0.0.0</listen_host> <!-- Default values - try listen localhost on ipv4 and ipv6: --> <!-- <listen_host>::1</listen_host> <listen_host>127.0.0.1</listen_host> --> ...
ファイルを保存してvi
を終了します。 新しい構成を適用するには、次のコマンドを実行してサービスを再起動します。
sudo service clickhouse-server restart
このコマンドから次の出力が表示されます。
OutputStop clickhouse-server service: DONE Start clickhouse-server service: Path to data directory in /etc/clickhouse-server/config.xml: /var/lib/clickhouse/ DONE
リモートサーバーのIPをpublicというゾーンに追加します。
sudo firewall-cmd --permanent --zone=public --add-source=second_server_ip/32
ClickHouseのサーバーは、ポート8123
でHTTP接続をリッスンし、ポート9000
でclickhouse-client
からの接続をリッスンします。 次のコマンドを使用して、2番目のサーバーのIPアドレスの両方のポートへのアクセスを許可します。
sudo firewall-cmd --permanent --zone=public --add-port=8123/tcp sudo firewall-cmd --permanent --zone=public --add-port=9000/tcp
両方のコマンドについて、両方のポートへのアクセスを有効にしたことを示す次の出力が表示されます。
Outputsuccess
ルールを追加したので、変更を有効にするためにファイアウォールをリロードします。
sudo firewall-cmd --reload
このコマンドは、success
メッセージも出力します。 これで、追加したIPからClickHouseにアクセスできるようになります。 必要に応じて、ローカルマシンのアドレスなどのIPを自由に追加してください。
リモートマシンからClickHouseサーバーに接続できることを確認するには、最初に2番目のサーバーでこのチュートリアルのステップ1の手順に従い、clickhouse-client
がインストールされていることを確認します。
2番目のサーバーにログインしたので、次を実行してクライアントセッションを開始します。
clickhouse-client --host your_server_ip --multiline
サーバーに正常に接続したことを示す次の出力が表示されます。
OutputClickHouse client version 19.4.3. Connecting to your_server_ip:9000 as user default. Connected to ClickHouse server version 19.4.3 revision 54416. hostname :)
この手順では、ファイアウォールルールを調整して、ClickHouseデータベースサーバーへのリモートアクセスを有効にしました。
結論
これで、サーバー上にClickHouseデータベースインスタンスが正常にセットアップされ、データベースとテーブルが作成され、データが追加され、クエリが実行され、データベースが削除されました。 ClickHouseのドキュメントでは、他のオープンソースおよび商用分析データベースに対するベンチマークおよび一般的なリファレンスドキュメントについて読むことができます。 その他の機能ClickHouseには、複数のサーバーに分散されたクエリ処理が含まれており、さまざまなシャードにデータを保存することで、パフォーマンスを向上させ、データ損失から保護します。