CentOS7にSphinxをインストールして構成する方法
序章
Sphinxは、全文検索を可能にするオープンソースの検索エンジンです。 大きなデータを非常に効率的に検索することで最もよく知られています。 インデックスを作成するデータは、通常、SQLデータベース、プレーンテキストファイル、HTMLファイル、メールボックスなど、非常に異なるソースから取得できます。
Sphinxの主な機能は次のとおりです。
- 高いインデックス作成と検索のパフォーマンス
- 高度なインデックス作成およびクエリツール
- 高度な結果セットの後処理
- 最大数十億のドキュメント、テラバイトのデータ、および1秒あたり数千のクエリまでの実証済みのスケーラビリティ
- SQLおよびXMLデータソース、およびSphinxQL、SphinxAPI、またはSphinxSE検索インターフェイスとの簡単な統合
- 分散検索による簡単なスケーリング
このチュートリアルでは、配布パッケージに含まれているサンプルSQLファイルを使用してMySQLサーバーでSphinxをセットアップします。 プロジェクトでSphinxを使用する方法の基本的な考え方がわかります。
前提条件
このガイドを開始する前に、次のものが必要です。
- 1台のCentOS7サーバー。
- このチュートリアルに従って設定できるsudo非rootユーザー。
- サーバーにインストールされたMySQL。これは、このチュートリアルのステップ2に従ってセットアップできます。
ステップ1—Sphinxをインストールする
執筆時点で、最新のSphinxバージョンは2.2.11です。 最新バージョンは、SphinxのWebサイトで見つけることができます。
Sphinxをインストールする前に、まずその依存関係をインストールする必要があります。
sudo yum install -y postgresql-libs unixODBC
tmp
ディレクトリに移動して、Sphinxのファイルを邪魔にならない場所にダウンロードします。
cd /tmp
wget
を使用して最新のSphinxバージョンをダウンロードします。
wget http://sphinxsearch.com/files/sphinx-2.2.11-1.rhel7.x86_64.rpm
最後に、yum
を使用してインストールします。
sudo yum install -y sphinx-2.2.11-1.rhel7.x86_64.rpm
これで、サーバーにSphinxが正常にインストールされました。 Sphinxデーモンを起動する前に、それを構成しましょう。
ステップ2–テストデータベースの作成
ここでは、パッケージに付属のSQLファイルのサンプルデータを使用してデータベースを設定します。 これにより、Sphinx検索が後で機能していることをテストできます。
サンプルSQLファイルをデータベースにインポートしてみましょう。 まず、MySQLサーバーシェルにログインします。
mysql -u root -p
求められたら、MySQLrootユーザーのパスワードを入力します。 プロンプトがMariaDB>
に変わります。
ダミーデータベースを作成します。 ここでは、 test と呼んでいますが、任意の名前を付けることができます。
CREATE DATABASE test;
サンプルSQLファイルをインポートします。
SOURCE /usr/share/doc/sphinx-2.2.11/example.sql;
次に、MySQLシェルを終了します。
quit
これで、サンプルデータで満たされたデータベースができました。 次に、Sphinxの構成をカスタマイズします。
ステップ3–Sphinxの構成
Sphinxの構成は、/etc/sphinx
のsphinx.conf
というファイルに含まれている必要があります。 構成は、 index 、 searchd 、およびsourceの3つのメインブロックで構成されています。
すでに提供されている最小限の構成がありますが、後でカスタマイズできるように、使用して各セクションを説明するための新しい構成ファイルの例を提供します。
まず、既存のsphinx.conf
ファイルを移動します。
sudo mv /etc/sphinx/sphinx.conf /etc/sphinx/sphinx.conf2
vi
またはお気に入りのテキストエディタを使用して新しいsphinx.conf
ファイルを作成します。
sudo vi /etc/sphinx/sphinx.conf
index 、 searchd 、およびsourceブロックのそれぞれについて以下に説明します。 次に、この手順の最後に、sphinx.conf
全体が含まれているため、ファイルにコピーして貼り付けることができます。
source ブロックには、MySQLサーバーへのソースのタイプ、ユーザー名、およびパスワードが含まれています。 sql_query
の最初の列は一意のIDである必要があります。 SQLクエリはすべてのインデックスで実行され、データをSphinxインデックスファイルにダンプします。 以下は、各フィールドとソースブロック自体の説明です。
type
:インデックスを作成するデータソースのタイプ。 この例では、これはmysqlです。 サポートされているその他のタイプには、pgsql、mssql、xmlpipe2、odbcなどがあります。sql_host
:MySQLホストのホスト名。 この例では、これはlocalhost
です。 これは、ドメインまたはIPアドレスにすることができます。sql_user
:MySQLログインのユーザー名。 この例では、これはrootです。sql_pass
:MySQLユーザーのパスワード。 この例では、これはルートMySQLユーザーのパスワードです。sql_db
:データを格納するデータベースの名前。 この例では、これはtestです。sql_query
:データベースからインデックスにデータをダンプするクエリ。
これはソースブロックです:
sphinx.confのソースブロック
source src1 { type = mysql #SQL settings (for ‘mysql’ and ‘pgsql’ types) sql_host = localhost sql_user = root sql_pass = password sql_db = test sql_port = 3306 # optional, default is 3306 sql_query = \ SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ FROM documents sql_attr_uint = group_id sql_attr_timestamp = date_added }
index コンポーネントには、データを格納するためのソースとパスが含まれています。 の
source
:ソースブロックの名前。 この例では、これはsrc1です。path
:インデックスを保存するためのパス。
sphinx.confのインデックスブロック
index test1 { source = src1 path = /var/lib/sphinx/test1 docinfo = extern }
searchd コンポーネントには、Sphinxデーモンを実行するためのポートおよびその他の変数が含まれています。
listen
:Sphinxデーモンが実行されるポートとそれに続くプロトコル。 この例では、これは 9306:mysql41です。 既知のプロトコルは、:sphinx (SphinxAPI)および:mysql41 (SphinxQL)です。query_log
:クエリログを保存するためのパス。pid_file
:SphinxデーモンのPIDファイルへのパス。seamless_rotate
:大量のデータを含むインデックスをプリキャッシュにローテーションする際に検索されるストールを防止します。preopen_indexes
:起動時にすべてのインデックスを強制的にプリオープンするかどうか。unlink_old
:ローテーションが成功したときに古いインデックスコピーを削除するかどうか。
sphinx.confのブロックを検索しました
searchd { listen = 9312:sphinx #SphinxAPI port listen = 9306:mysql41 #SphinxQL port log = /var/log/sphinx/searchd.log query_log = /var/log/sphinx/query.log read_timeout = 5 max_children = 30 pid_file = /var/run/sphinx/searchd.pid seamless_rotate = 1 preopen_indexes = 1 unlink_old = 1 binlog_path = /var/lib/sphinx/ }
コピーして貼り付ける完全な構成は次のとおりです。 以下で変更する必要がある唯一の変数は、強調表示されているソースブロックのsql_pass
変数です。
完全なsphinx.confファイル
source src1 { type = mysql sql_host = localhost sql_user = root sql_pass = your_root_mysql_password sql_db = test sql_port = 3306 sql_query = \ SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ FROM documents sql_attr_uint = group_id sql_attr_timestamp = date_added } index test1 { source = src1 path = /var/lib/sphinx/test1 docinfo = extern } searchd { listen = 9306:mysql41 log = /var/log/sphinx/searchd.log query_log = /var/log/sphinx/query.log read_timeout = 5 max_children = 30 pid_file = /var/run/sphinx/searchd.pid seamless_rotate = 1 preopen_indexes = 1 unlink_old = 1 binlog_path = /var/lib/sphinx/ }
その他の構成を調べるには、 /usr/share/doc/sphinx-2.2.11/sphinx.conf.dist
ファイルを参照してください。このファイルには、すべての変数が詳細に説明されています。
ステップ4—インデックスの管理
このステップでは、Sphinxインデックスにデータを追加し、cron
を使用してインデックスが最新の状態に保たれていることを確認します。
まず、前に作成した構成を使用して、インデックスにデータを追加します。
sudo indexer --all
次のようなものが得られるはずです。
OutputSphinx 2.2.11-id64-release (95ae9a6) Copyright (c) 2001-2016, Andrew Aksyonoff Copyright (c) 2008-2016, Sphinx Technologies Inc (http://sphinxsearch.com) using config file '/etc/sphinx/sphinx.conf'... indexing index 'test1'... collected 4 docs, 0.0 MB sorted 0.0 Mhits, 100.0% done total 4 docs, 193 bytes total 0.006 sec, 29765 bytes/sec, 616.90 docs/sec total 4 reads, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg total 12 writes, 0.000 sec, 0.1 kb/call avg, 0.0 msec/call avg
実稼働環境では、インデックスを最新の状態に保つ必要があります。 そのために、Cronジョブを作成しましょう。 まず、crontab
を開きます。
crontab -e
次のCronジョブは1時間ごとに実行され、前に作成した構成ファイルを使用して新しいデータをインデックスに追加します。 ファイルの最後にコピーして貼り付け、ファイルを保存して閉じます。
crontab
@hourly /usr/bin/indexer --rotate --config /etc/sphinx/sphinx.conf --all
Sphinxが完全にセットアップおよび構成されたので、サービスを開始して試すことができます。
ステップ5—Sphinxを起動する
systemctl
を使用してSphinxデーモンを起動します。
sudo systemctl start searchd
Sphinxデーモンが正しく実行されているかどうかを確認するには、次のコマンドを実行します。
sudo systemctl status searchd
次のようなものが得られるはずです。
Output● searchd.service - SphinxSearch Search Engine Loaded: loaded (/usr/lib/systemd/system/searchd.service; disabled; vendor preset: disabled) Active: active (running) since Fri 2016-08-19 17:48:39 UTC; 5s ago . . .
Sphinxは完全にカスタマイズされて実行されているため、次に正しく機能することを確認します。
ステップ6—検索機能のテスト
すべての設定が完了したので、検索機能をテストしてみましょう。 MySQLインターフェースを使用してSphinxQLに接続します。 プロンプトがMySQL>
に変わります。
mysql -h0 -P9306
文を検索してみましょう。
SELECT * FROM test1 WHERE MATCH('test document'); SHOW META;
次のようなものが得られるはずです。
Output+------+----------+------------+ | id | group_id | date_added | +------+----------+------------+ | 1 | 1 | 1465979047 | | 2 | 1 | 1465979047 | +------+----------+------------+ 2 rows in set (0.00 sec) +---------------+----------+ | Variable_name | Value | +---------------+----------+ | total | 2 | | total_found | 2 | | time | 0.000 | | keyword[0] | test | | docs[0] | 3 | | hits[0] | 5 | | keyword[1] | document | | docs[1] | 2 | | hits[1] | 2 | +---------------+----------+ 9 rows in set (0.00 sec)
上記の結果では、Sphinxがテストセンテンスのtest1
インデックスから2つの一致を検出したことがわかります。 SHOW META;
コマンドは、文のキーワードごとのヒット数も表示します。
いくつかのキーワードを検索してみましょう。
CALL KEYWORDS ('test one three', 'test1', 1);
次のようなものが得られるはずです。
Output+------+-----------+------------+------+------+ | qpos | tokenized | normalized | docs | hits | +------+-----------+------------+------+------+ | 1 | test | test | 3 | 5 | | 2 | one | one | 1 | 2 | | 3 | three | three | 0 | 0 | +------+-----------+------------+------+------+ 3 rows in set (0.00 sec)
上記の結果では、 test1 インデックスで、Sphinxが次のことを検出したことがわかります。
- キーワード「test」の3つのドキュメントで5つの一致
- キーワード「one」の1つのドキュメントで2つの一致
- キーワード「3」の0ドキュメントで0一致
Sphinxをテストしたので、必要に応じてDROP DATABASE test;
を使用してテストデータベースを削除できます。
完了したら、MySQLシェルを終了します。
quit
結論
このチュートリアルでは、Sphinxをインストールし、SphinxQLとMySQLを使用して簡単な検索を行う方法を示しました。
PHP、Perl、Python、Ruby、Java用の公式のネイティブSphinxAPI実装もあります。 Nodejsを使用している場合は、SphinxAPIパッケージを使用することもできます。
Sphinxを使用すると、サイトにカスタム検索を簡単に追加できます。 Sphinxの使用の詳細については、プロジェクトのWebサイトにアクセスしてください。