Ubuntu16.04でCassandraとElasticSearchを使用してTitanグラフデータベースを設定する方法

序章

Titan は、高度にスケーラブルなオープンソースのグラフデータベースです。グラフデータベースは、すべてのデータがノードおよびエッジとして格納される一種のNoSQLデータベースです。グラフデータベースは、ソーシャルネットワーキングサイトのように、データ間の関係がアプリケーションの機能の重要な部分である、高度に接続されたデータを使用するアプリケーションに適しています。 Titanは、複数のマシンに分散されている大量のデータの保存とクエリに使用されます。 Apache Cassandra、HBase、BerkeleyDBなどの利用可能なさまざまなストレージバックエンドのいずれかを使用するように構成できます。これにより、データストアを変更する必要がある場合に、将来的にベンダーロックインを回避しやすくなります。

このチュートリアルでは、Titan1.0をインストールします。次に、CassandraとElasticSearchを使用するようにTitanを構成します。どちらも、Titanにバンドルされています。 Cassandraは、基になるデータを保持するデータストアとして機能しますが、フリーテキスト検索エンジンであるElasticSearchを使用して、データベースで高度な検索操作を実行できます。また、Gremlinを使用して、データベースからデータを作成およびクエリします。

前提条件

このチュートリアルを完了するには、次のものが必要です。

root以外のユーザーとファイアウォールを備えた2GB以上のRAMを備えた1台のUbuntu16.04サーバー。これを設定するには、 Ubuntu16.04を使用したサーバーの初期設定に従います。
Oracle JDK 8がインストールされました。これは、このJavaインストール記事の「OracleJDKのインストール」セクションに従って実行できます。

ステップ1— Titanのダウンロード、解凍、起動

Titanデータベースをダウンロードするには、ダウンロードページにアクセスしてください。ダウンロード可能な2つのTitanディストリビューションが表示されます。このチュートリアルでは、Titan1.0.0とHadoop1が必要です。これは安定したリリースです。 wgetを使用してサーバーにダウンロードします。

wget http://s3.thinkaurelius.com/downloads/titan/titan-1.0.0-hadoop1.zip

ダウンロードが完了したら、zipファイルを解凍します。ファイルを解凍するプログラムはデフォルトではインストールされていません。最初にインストールします。

sudo apt-get install unzip

次に、Titanを解凍します。

unzip titan-1.0.0-hadoop1.zip

これにより、titan-1.0.0-hadoopという名前のディレクトリが作成されます。

すべてが機能することを確認するためにTitanを起動しましょう。 titan-1.0.0-hadoopディレクトリに移動し、シェルスクリプトを呼び出してTitanを起動します。

cd titan-1.0.0-hadoop1
./bin/titan.sh start

次のような出力が表示されます。

OutputForking Cassandra...
Running `nodetool statusthrift`... OK (returned exit status 0 and printed string "running").
Forking Elasticsearch...
Connecting to Elasticsearch (127.0.0.1:9300)...... OK (connected to 127.0.0.1:9300).
Forking Gremlin-Server...
Connecting to Gremlin-Server (127.0.0.1:8182)...... OK (connected to 127.0.0.1:8182).
Run gremlin.sh to connect.

Titanは、他の多くのツールに依存しています。そのため、Titanが起動されるたびに、Cassandra、ElasticSearch、Gremlin-Serverも一緒に起動されます。

次のコマンドを実行すると、Titanのステータスを確認できます。

./bin/titan.sh status

次の出力が表示されます。

OutputGremlin-Server (org.apache.tinkerpop.gremlin.server.GremlinServer) is running with pid 7490
Cassandra (org.apache.cassandra.service.CassandraDaemon) is running with pid 7077
Elasticsearch (org.elasticsearch.bootstrap.Elasticsearch) is running with pid 7358

次のステップでは、グラフをクエリする方法を確認します。

ステップ2—グレムリンを使用してグラフをクエリする

Gremlin は、 Graph Traversal Language であり、グラフデータベースのクエリ、分析、および操作に使用されます。 Titanのセットアップと開始が完了したので、Gremlinを使用して、Titanからノードとエッジを作成およびクエリします。

グレムリンを使用するには、次のコマンドを発行してグレムリンコンソールを開きます。

./bin/gremlin.sh

次のような応答が表示されます。

Output          \,,,/
         (o o)
-----oOOo-(3)-oOOo-----
plugin activated: tinkerpop.server
plugin activated: tinkerpop.hadoop
plugin activated: tinkerpop.utilities
plugin activated: aurelius.titan
plugin activated: tinkerpop.tinkergraph
gremlin>

Gremlin Consoleは、TitanおよびGremlin固有の機能をサポートするためにいくつかのプラグインをロードします。

まず、グラフオブジェクトをインスタンス化します。このオブジェクトは、現在作業中のグラフを表します。頂点の追加、ラベルの作成、トランザクションの処理など、グラフの管理に役立つメソッドがいくつかあります。次のコマンドを実行して、グラフオブジェクトをインスタンス化します。

graph = TitanFactory.open('conf/titan-cassandra-es.properties')

次の出力が表示されます。

Output==>standardtitangraph[cassandrathrift:[127.0.0.1]]

出力は、TitanFactory.open()メソッドによって返されるオブジェクトのタイプ（standardtitangraph）を指定します。また、グラフが使用するストレージバックエンド（cassandrathrift）と、ローカルホスト経由で接続されていること（127.0.0.1）も示します。

open()メソッドは、指定されたプロパティファイルにある構成オプションを使用して、新しいTitanグラフを作成するか、既存のグラフを開きます。構成ファイルには、使用するストレージバックエンド、キャッシュバックエンド、その他のいくつかのオプションなどの高レベルの構成オプションが含まれています。カスタム構成ファイルを作成して、ステップ3で行うデフォルトの代わりに使用できます。

コマンドが実行されると、グラフオブジェクトがインスタンス化され、graph変数に格納されます。グラフオブジェクトで使用可能なすべてのプロパティとメソッドを確認するには、graph.と入力し、続いてTABキーを入力します。

gremlin> graph.
addVertex(                    assignID(                     buildTransaction()            close()                       
closeTransaction(             commit(                       compute(                      compute()                     
configuration()               containsEdgeLabel(            containsPropertyKey(          containsRelationType(         
containsVertexLabel(          edgeMultiQuery(               edgeQuery(                    edges(                        
features()                    getEdgeLabel(                 getOrCreateEdgeLabel(         getOrCreatePropertyKey(       
...
...

グラフデータベースでは、リレーショナルデータベースのように結合とインデックスを使用してレコードを取得するのではなく、主にトラバースによってデータをクエリします。グラフをトラバースするには、graph参照変数からのグラフトラバーサルソースが必要です。次のコマンドはこれを実現します。

g = graph.traversal()

このg変数を使用してトラバーサルを実行します。その変数を使用して、いくつかの頂点を作成しましょう。頂点はSQLの行のようなものです。各頂点には、SQLのフィールドと同様に、頂点タイプまたはlabelとそれに関連するプロパティがあります。次のコマンドを実行します。

sammy = g.addV(label, 'fish', 'name', 'Sammy', 'residence', 'The Deep Blue Sea').next()
company = g.addV(label, 'company', 'name', 'DigitalOcean', 'website', 'www.digitalocean.com').next()

この例では、ラベルがそれぞれfishとcompanyの2つの頂点を作成しました。また、最初の頂点にはnameとresidence、2番目の頂点にはnameとwebsiteという2つのプロパティを定義しました。次に、変数sammyとcompanyを使用してこれらの頂点にアクセスしましょう。

たとえば、最初の頂点のすべてのプロパティを一覧表示するには、次のコマンドを実行します。

g.V(sammy).properties()

出力は次のようになります。

Output==>vp[name->Sammy]
==>vp[residence->The Deep Blue Sea]

頂点に新しいプロパティを追加することもできます。色を追加しましょう：

g.V(sammy).property('color', 'blue')

次に、これら2つの頂点間の関係を定義しましょう。これは、それらの間にedgeを作成することによって実現されます。

company.addEdge('hasMascot', sammy, 'status', 'high')

これにより、sammyとcompanyの間に、ラベルhasMascotと、値highのstatusという名前のプロパティのエッジが作成されます。

それでは、会社のマスコットを入手しましょう。

g.V(company).out('hasMascot')

これにより、company頂点からの出力頂点と、それらの間のエッジにhasMascotというラベルが付けられます。次のように、逆の操作を行って、マスコットsammyに関連付けられている会社を取得することもできます。

g.V(sammy).in('hasMascot')

これらは、始めるためのいくつかの基本的なGremlinコマンドです。詳細については、説明的なApacheTinkerpop3ドキュメントをご覧ください。

CTRL+Cを押して、Gremlinコンソールを終了します。

次に、Titanのカスタム構成オプションをいくつか追加しましょう。

ステップ3—Titanの構成

Titanのすべてのカスタム構成オプションを定義するために使用できる新しい構成ファイルを作成しましょう。

Titanにはプラグ可能なストレージレイヤーがあります。 Titanは、データストレージ自体を処理する代わりに、別のデータベースを使用してデータストレージを処理します。 Titanは現在、ストレージデータベースにCassandra、HBase、BerkeleyDBの3つのオプションを提供しています。このチュートリアルでは、Cassandraをストレージエンジンとして使用します。これは、拡張性が高く、可用性が高いためです。

まず、構成ファイルを作成します。

nano conf/gremlin-server/custom-titan-config.properties

これらの行を追加して、ストレージバックエンドとは何か、およびそれが使用可能な場所を定義します。ストレージバックエンドはcassandrathriftに設定されています。これは、CassandraのthriftインターフェイスでストレージにCassandraを使用していることを示しています。

conf / gremlin-server / custom-titan-config.properties

storage.backend=cassandrathrift
storage.hostname=localhost

次に、これらの3行を追加して、使用する検索バックエンドを定義します。検索バックエンドとしてelasticsearchを使用します。

conf / gremlin-server / custom-titan-config.properties

...
index.search.backend=elasticsearch
index.search.hostname=localhost
index.search.elasticsearch.client-only=true

3行目は、ElasticSearchがデータを保存しないシンクライアントであることを示しています。 falseに設定すると、データを保存する可能性のある通常のElasticSearchクラスターノードが作成されますが、現在は必要ありません。

最後に、この行を追加して、GremlinServerに提供するグラフのタイプを通知します。

conf / gremlin-server / custom-titan-config.properties

...
gremlin.graph=com.thinkaurelius.titan.core.TitanFactory

confディレクトリには、参照用に調べることができるいくつかの設定ファイルの例があります。

ファイルを保存して、エディターを終了します。

この新しい構成ファイルをGremlinサーバーに追加する必要があります。 GremlinServerの構成ファイルを開きます。

nano conf/gremlin-server/gremlin-server.yaml

graphsセクションに移動し、次の行を見つけます。

conf / gremlin-server / gremlin-server.yaml

..
 graph: conf/gremlin-server/titan-berkeleyje-server.properties}
..

これに置き換えます：

conf / gremlin-server / gremlin-server.yaml

..
 graph: conf/gremlin-server/custom-titan-config.properties}
..

ファイルを保存して終了します。

次に、Titanを停止して再起動し、Titanを再起動します。

./bin/titan.sh stop
./bin/titan.sh start

カスタム構成ができたので、サービスとして実行するようにTitanを構成しましょう。

ステップ4—SystemdでTitanを管理する

サーバーが起動するたびにTitanが自動的に起動することを確認する必要があります。サーバーが誤って再起動された場合、または何らかの理由で再起動する必要があった場合は、Titanも起動する必要があります。

これを構成するには、Titan用のSystemdユニットファイルを作成して管理できるようにします。

まず、/etc/systemd/systemディレクトリ内に.service拡張子の付いたアプリケーション用のファイルを作成します。

sudo nano /etc/systemd/system/titan.service

ユニットファイルはセクションで構成されています。 [Unit]セクションでは、サービスの説明やサービスの開始時期など、サービスのメタデータと依存関係を指定します。

この構成をファイルに追加します。

/etc/systemd/system/titan.service

[Unit]
Description=The Titan database
After=network.target

ネットワークターゲットに到達した後'にサービスを開始するように指定します。つまり、このサービスは、ネットワークサービスの準備ができてから開始します。

[Unit]セクションの後に、サービスの開始方法を指定する[Service]セクションを定義します。これを構成ファイルに追加します。

/etc/systemd/system/titan.service

[Service]
User=sammy
Group=www-data
Type=forking
Environment="PATH=/home/sammy/titan-1.0.0-hadoop1/bin:/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"
WorkingDirectory=/home/sammy/titan-1.0.0-hadoop1/
ExecStart=/home/sammy/titan-1.0.0-hadoop1/bin/titan.sh start
ExecStop=/home/sammy/titan-1.0.0-hadoop1/bin/titan.sh stop

まず、サービスを実行するユーザーとグループを定義します。次に、サービスの種類を定義します。タイプはデフォルトでsimpleであると想定されています。 Titanの起動に使用している起動スクリプトは他の子プログラムを起動するため、サービスの種類をforkingと指定します。

次に、PATH環境変数、Titanの作業ディレクトリ、およびTitanを起動するために実行するコマンドを指定します。 Titanを起動するコマンドをExecStart変数に割り当てます。

ExecStop変数は、サービスを停止する方法を定義します。

最後に、[Install]セクションを追加します。これは次のようになります。

/etc/systemd/system/titan.service

[Install]
WantedBy=multi-user.target

Installセクションでは、サービスを有効または無効にできます。 WantedByディレクティブは、/etc/systemd/systemディレクトリ内にmulti-user.targetというディレクトリを作成します。 Systemdは、このユニットファイルのシンボリックリンクをそこに作成します。このサービスを無効にすると、このファイルがディレクトリから削除されます。

ファイルを保存し、エディターを閉じて、新しいサービスを開始します。

sudo systemctl start titan

次に、このサービスを有効にして、サーバーが起動するたびにTitanが起動するようにします。

sudo systemctl enable titan

次のコマンドを使用して、Titanのステータスを確認できます。

sudo systemctl status titan

ユニットファイルの詳細については、チュートリアルSystemdユニットとユニットファイルについてをお読みください。

結論

これで、基本的なTitanセットアップがサーバーにインストールされました。 Titanのアーキテクチャを詳しく知りたい場合は、遠慮なく公式ドキュメントをチェックしてください。

Titanをセットアップしたので、公式ドキュメントを参照して、Tinkerpop3とGremlinについて詳しく知る必要があります。