Apache Tajo-SQLステートメント

前の章で、Tajoでテーブルを作成する方法を理解しました。この章では、TajoのSQLステートメントについて説明します。

テーブルステートメントの作成

テーブルを作成するために移動する前に、次のようにTajoインストールディレクトリパスにテキストファイル「students.csv」を作成します-

*students.csv*

Id	Name	Address	Age	Marks
1	Adam	23 New Street	21	90
2	Amit	12 Old Street	13	95
3	Bob	10 Cross Street	12	80
4	David	15 Express Avenue	12	85
5	Esha	20 Garden Street	13	50
6	Ganga	25 North Street	12	55
7	Jack	2 Park Street	12	60
8	Leena	24 South Street	12	70
9	Mary	5 West Street	12	75
10	Peter	16 Park Avenue	12	95

ファイルが作成されたら、ターミナルに移動し、Tajoサーバーとシェルを1つずつ起動します。

データベースを作成する

次のコマンドを使用して新しいデータベースを作成します-

問い合わせ

default> create database sampledb;
OK

作成されたデータベース「sampledb」に接続します。

default> \c sampledb
You are now connected to database "sampledb" as user “user1”.

次に、次のように「sampledb」にテーブルを作成します-

問い合わせ

sampledb>  create external table mytable(id int,name text,address text,age int,mark int)
   using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;

結果

上記のクエリは、次の結果を生成します。

OK

ここで、外部テーブルが作成されます。ここで、ファイルの場所を入力するだけです。 hdfsからテーブルを割り当てる必要がある場合は、fileではなくhdfsを使用します。

次に、“ students.csv” *ファイルにはコンマ区切り値が含まれています。 *text.delimiter フィールドには「、」が割り当てられます。

これで、「sampledb」に「mytable」が正常に作成されました。

テーブルを表示

Tajoのテーブルを表示するには、次のクエリを使用します。

問い合わせ

sampledb> \d
mytable
sampledb> \d mytable

結果

上記のクエリは、次の結果を生成します。

table name: sampledb.mytable
table uri: file:/Users/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 261 B
Options:
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4

リスト表

テーブル内のすべてのレコードを取得するには、次のクエリを入力します-

問い合わせ

sampledb> select *from mytable;

結果

上記のクエリは、次の結果を生成します。

リスト表

テーブルステートメントの挿入

Tajoは、次の構文を使用してテーブルにレコードを挿入します。

構文

create table table1 (col1 int8, col2 text, col3 text);
--schema should be same for target table schema
Insert overwrite into table1 select* from table2;
                     (or)
Insert overwrite into LOCATION '/dir/subdir' select * from table;

Tajoのinsertステートメントは、SQLの INSERT INTO SELECT ステートメントに似ています。

問い合わせ

既存のテーブルのテーブルデータを上書きするテーブルを作成しましょう。

sampledb> create table test(sno int,name text,addr text,age int,mark int);
OK
sampledb> \d

結果

上記のクエリは、次の結果を生成します。

mytable
test

レコードを挿入

「テスト」テーブルにレコードを挿入するには、次のクエリを入力します。

問い合わせ

sampledb> insert overwrite into test select *from mytable;

結果

上記のクエリは、次の結果を生成します。

Progress: 100%, response time: 0.518 sec

ここでは、「mytable」レコードが「test」テーブルを上書きします。「テスト」テーブルを作成したくない場合は、クエリを挿入するための代替オプションで説明されているように、すぐに物理パスの場所を割り当てます。

レコードを取得する

「テスト」テーブル内のすべてのレコードをリストするには、次のクエリを使用します-

問い合わせ

sampledb> select* from test;

結果

上記のクエリは、次の結果を生成します。

レコードの取得

このステートメントは、既存のテーブルの列を追加、削除、または変更するために使用されます。

テーブルの名前を変更するには、次の構文を使用します-

Alter table table1 RENAME TO table2;

問い合わせ

sampledb> alter table test rename to students;

結果

上記のクエリは、次の結果を生成します。

OK

変更されたテーブル名を確認するには、次のクエリを使用します。

sampledb> \d
mytable
students

テーブル「test」が「students」テーブルに変更されました。

列を追加

「学生」テーブルに新しい列を挿入するには、次の構文を入力します-

Alter table <table_name> ADD COLUMN <column_name> <data_type>

問い合わせ

sampledb> alter table students add column grade text;

結果

上記のクエリは、次の結果を生成します。

OK

プロパティを設定

このプロパティは、テーブルのプロパティを変更するために使用されます。

問い合わせ

sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
   'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ;
OK

ここでは、圧縮タイプとコーデックプロパティが割り当てられます。

テキスト区切りプロパティを変更するには、次を使用します-

問い合わせ

ALTER TABLE students  SET PROPERTY ‘text.delimiter'=',';
OK

結果

上記のクエリは、次の結果を生成します。

sampledb> \d students
table name: sampledb.students
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students
store type: TEXT
number of rows: 10
volume: 228 B
Options:
'compression.type' = 'RECORD'
'timezone' = 'Asia/Kolkata'
'text.null' = '\\N'
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec'
'text.delimiter' = ','
schema:
id INT4
name TEXT
addr TEXT
age INT4
mark INT4
grade TEXT

上記の結果は、「SET」プロパティを使用してテーブルのプロパティが変更されることを示しています。

選択ステートメント

SELECTステートメントは、データベースからデータを選択するために使用されます。

Selectステートメントの構文は次のとおりです-

SELECT [distinct [all]] *| <expression> [[AS] <alias>] [, ...]
   [FROM <table reference> [[AS] <table alias name>] [, ...]]
   [WHERE <condition>]
   [GROUP BY <expression> [, ...]]
   [HAVING <condition>]
   [ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]

Where句

Where句は、テーブルからレコードをフィルタリングするために使用されます。

問い合わせ

sampledb> select* from mytable where id > 5;

結果

上記のクエリは、次の結果を生成します。

Where Clause

クエリは、idが5より大きい生徒のレコードを返します。

問い合わせ

sampledb> select * from mytable where name = ‘Peter’;

結果

上記のクエリは、次の結果を生成します。

Progress: 100%, response time: 0.117 sec

  id,  name,  address,   age
-------------------------------
10,  Peter,  16 park avenue , 12

結果はPeterのレコードのみをフィルタリングします。

明確な条項

テーブルの列に重複した値が含まれる場合があります。 DISTINCTキーワードを使用して、異なる（異なる）値のみを返すことができます。

構文

SELECT DISTINCT column1,column2 FROM table_name;

問い合わせ

sampledb> select distinct age from mytable;

結果

上記のクエリは、次の結果を生成します。

Progress: 100%, response time: 0.216 sec
age
-------------------------------
13
12

このクエリは、 mytable から学生の明確な年齢を返します。

句ごとのグループ化

GROUP BY句は、SELECTステートメントと連携して使用され、同一のデータをグループに配置します。

構文

SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;

問い合わせ

select age,sum(mark) as sumofmarks from mytable group by age;

結果

上記のクエリは、次の結果を生成します。

age,  sumofmarks
-------------------------------
13,  145
12,  610

ここで、「mytable」列には、12と13の2種類の年齢があります。これで、クエリはレコードを年齢別にグループ化し、対応する学生の年齢のマークの合計を生成します。

句を持っている

HAVING句を使用すると、最終結果に表示されるグループ結果をフィルタリングする条件を指定できます。 WHERE句は選択した列に条件を配置しますが、HAVING句はGROUP BY句によって作成されたグループに条件を配置します。

構文

SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]

問い合わせ

sampledb> select age from mytable group by age  having  sum(mark) > 200;

結果

上記のクエリは、次の結果を生成します。

age
-------------------------------
12

クエリは、レコードを年齢でグループ化し、条件結果sum（mark）> 200のときに年齢を返します。

条項による注文

ORDER BY句は、1つ以上の列に基づいてデータを昇順または降順に並べ替えるために使用されます。 Tajoデータベースは、デフォルトでクエリ結果を昇順でソートします。

構文

SELECT column-list FROM table_name
[WHERE condition]
[ORDER BY column1, column2, .. columnN] [ASC | DESC];

問い合わせ

sampledb> select * from mytable where mark > 60 order by name desc;

結果

上記のクエリは、次の結果を生成します。

句による順序

クエリは、マークが60より大きい生徒の名前を降順で返します。

インデックスステートメントの作成

CREATE INDEXステートメントは、テーブルにインデックスを作成するために使用されます。インデックスは、データの高速取得に使用されます。現在のバージョンでは、HDFSに保存されているプレーンテキスト形式のインデックスのみがサポートされています。

構文

CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }

問い合わせ

create index student_index on mytable(id);

結果

上記のクエリは、次の結果を生成します。

id
———————————————

列に割り当てられたインデックスを表示するには、次のクエリを入力します。

default> \d mytable
table name: default.mytable
table uri: file:/Users/deiva/workspace/Tajo/students.csv
store type: TEXT
number of rows: unknown
volume: 307 B
Options:
   'timezone' = 'Asia/Kolkata'
   'text.null' = '\\N'
   'text.delimiter' = ','
schema:
id INT4
name TEXT
address TEXT
age INT4
mark INT4
Indexes:
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )

ここでは、TWOでTWO_LEVEL_BIN_TREEメソッドがデフォルトで使用されます。

テーブルステートメントの削除

Drop Tableステートメントは、データベースからテーブルを削除するために使用されます。

構文

drop table table name;

問い合わせ

sampledb> drop table mytable;

テーブルがテーブルから削除されたかどうかを確認するには、次のクエリを入力します。

sampledb> \d mytable;

結果

上記のクエリは、次の結果を生成します。

ERROR: relation 'mytable' does not exist

「\ d」コマンドを使用してクエリを確認し、使用可能なTajoテーブルをリストすることもできます。

Apache-tajo-sql-statements

Apache Tajo-SQLステートメント

テーブルステートメントの作成

データベースを作成する

問い合わせ

問い合わせ

結果

テーブルを表示

問い合わせ

結果

リスト表

問い合わせ

結果

テーブルステートメントの挿入

構文

問い合わせ

結果

レコードを挿入

問い合わせ

結果

レコードを取得する

問い合わせ

結果

問い合わせ

結果

列を追加

問い合わせ

結果

プロパティを設定

問い合わせ

問い合わせ

結果

選択ステートメント

Where句

問い合わせ

結果

問い合わせ

結果

明確な条項

構文

問い合わせ

結果

句ごとのグループ化

構文

問い合わせ

結果

句を持っている

構文

問い合わせ

結果

条項による注文

構文

問い合わせ

結果

インデックスステートメントの作成

構文

問い合わせ

結果

テーブルステートメントの削除

構文

問い合わせ

結果