Biopython-Entrezデータベース
Entrezを介してアクセスできる一般的なデータベースの一部を以下に示します-
- パブメッド
- パブメッドセントラル
- ヌクレオチド(GenBank配列データベース)
- タンパク質(配列データベース)
- ゲノム(全ゲノムデータベース)
- 構造(三次元高分子構造)
- 分類(GenBankの生物)
- SNP(一塩基多型)
- UniGene(転写配列の遺伝子指向クラスター)
- CDD(保存タンパク質ドメインデータベース)
- 3Dドメイン(Entrez構造からのドメイン)
上記のデータベースに加えて、Entrezはフィールド検索を実行するためにより多くのデータベースを提供します。
Biopythonは、EntrezデータベースにアクセスするためのEntrez固有のモジュールBio.Entrezを提供します。 この章では、Biopythonを使用してEntrezにアクセスする方法を学びましょう-
データベース接続手順
Entrezの機能を追加するには、次のモジュールをインポートします-
次に、以下のコードで誰が接続されているかを特定するためにメールを設定します-
次に、Entrezツールパラメーターを設定します。デフォルトでは、Biopythonです。
ここで、以下に定義されているように、各データベースのインデックス用語カウント、最終更新、および利用可能なリンクを見つけるために* einfo関数を呼び出します-
einfoメソッドは、以下に示すように、その読み取りメソッドを介して情報へのアクセスを提供するオブジェクトを返します-
データはXML形式であり、Pythonオブジェクトとしてデータを取得するには、* Entrez.einfo()メソッドが呼び出されたらすぐに *Entrez.read メソッドを使用します-
ここで、レコードは、以下に示すように、1つのキー、DbListを持つ辞書です-
DbListキーにアクセスすると、以下に示すデータベース名のリストが返されます-
>>> record[u'DbList']
['pubmed', 'protein', 'nuccore', 'ipg', 'nucleotide', 'nucgss',
'nucest', 'structure', 'sparcle', 'genome', 'annotinfo', 'assembly',
'bioproject', 'biosample', 'blastdbinfo', 'books', 'cdd', 'clinvar',
'clone', 'gap', 'gapplus', 'grasp', 'dbvar', 'gene', 'gds', 'geoprofiles',
'homologene', 'medgen', 'mesh', 'ncbisearch', 'nlmcatalog', 'omim',
'orgtrack', 'pmc', 'popset', 'probe', 'proteinclusters', 'pcassay',
'biosystems', 'pccompound', 'pcsubstance', 'pubmedhealth', 'seqannot',
'snp', 'sra', 'taxonomy', 'biocollections', 'unigene', 'gencoll', 'gtr']
>>>
基本的に、EntrezモジュールはEntrez検索システムから返されたXMLを解析し、Python辞書とリストとして提供します。
検索データベース
Entrezデータベースのいずれかを検索するには、Bio.Entrez.esearch()モジュールを使用できます。 以下に定義されています-
>>> info = Entrez.einfo()
>>> info = Entrez.esearch(db = "pubmed",term = "genome")
>>> record = Entrez.read(info)
>>>print(record)
DictElement({u'Count': '1146113', u'RetMax': '20', u'IdList':
['30347444', '30347404', '30347317', '30347292',
'30347286', '30347249', '30347194', '30347187',
'30347172', '30347088', '30347075', '30346992',
'30346990', '30346982', '30346980', '30346969',
'30346962', '30346954', '30346941', '30346939'],
u'TranslationStack': [DictElement({u'Count':
'927819', u'Field': 'MeSH Terms', u'Term': '"genome"[MeSH Terms]',
u'Explode': 'Y'}, attributes = {})
, DictElement({u'Count': '422712', u'Field':
'All Fields', u'Term': '"genome"[All Fields]', u'Explode': 'N'}, attributes = {}),
'OR', 'GROUP'], u'TranslationSet': [DictElement({u'To': '"genome"[MeSH Terms]
OR "genome"[All Fields]', u'From': 'genome'}, attributes = {})], u'RetStart': '0',
u'QueryTranslation': '"genome"[MeSH Terms] OR "genome"[All Fields]'},
attributes = {})
>>>
間違ったdbを割り当てると、それは戻ります
データベース全体を検索する場合は、 Entrez.egquery を使用できます。 これは Entrez.esearch と似ていますが、キーワードを指定してデータベースパラメータをスキップするだけで十分です。
レコードを取得する
Enterzは、Entrezからレコードの完全な詳細を検索およびダウンロードするための特別な方法であるefetchを提供します。 次の簡単な例を検討してください-
これで、SeqIOオブジェクトを使用して簡単にレコードを読み取ることができます