Beautiful-soup-navigating-by-tags
美しいスープ-タグでナビゲート
この章では、タグによるナビゲーションについて説明します。
以下は私たちのhtmlドキュメントです-
上記のドキュメントに基づいて、ドキュメントの一部から別の部分への移動を試みます。
下っていく
HTMLドキュメントの要素の重要な要素の1つはタグです。これには、他のタグ/文字列(タグの子)が含まれる場合があります。 Beautiful Soupは、タグの子をナビゲートおよび反復するさまざまな方法を提供します。
タグ名を使用して移動する
解析ツリーを検索する最も簡単な方法は、名前でタグを検索することです。 <head>タグが必要な場合は、soup.headを使用します-
<body>タグ内の特定のタグ(最初の<b>タグなど)を取得します。
属性としてタグ名を使用すると、その名前の最初のタグのみが表示されます-
すべてのタグの属性を取得するには、find_all()メソッドを使用できます-
.contentsと.children
contentsでリスト内のタグの子を検索できます-.
BeautifulSoupオブジェクト自体には子があります。 この場合、<html>タグはBeautifulSoupオブジェクトの子です-
文字列には何も含めることができないため、.contentsはありません-
それらをリストとして取得する代わりに、.childrenジェネレーターを使用してタグの子にアクセスします-
。子孫
descendants属性を使用すると、タグのすべての子を反復的に反復できます-.
その直接の子とその直接の子の子など-
<head>タグには子が1つだけありますが、子孫は<title>タグと<title>タグの子の2つです。 beautifulsoupオブジェクトには直接の子(<html>タグ)は1つしかありませんが、子孫はたくさんあります-
。ストリング
タグに子が1つだけあり、その子がNavigableStringである場合、子は.stringとして利用可能になります-
タグの唯一の子が別のタグであり、そのタグに.stringがある場合、親タグはその子と同じ.stringを持つと見なされます-
ただし、タグに複数のものが含まれている場合、.stringの参照先が明確でないため、.stringはNoneに定義されています-
.stringsおよびstripped_strings
タグ内に複数のものが存在する場合でも、文字列だけを見ることができます。 .stringsジェネレータを使用します-
余分な空白を削除するには、.stripped_stringsジェネレータを使用します-
上がっていく
「家系図」の類推では、すべてのタグとすべての文字列に親があります。それを含むタグ:
。親
要素の親要素にアクセスするには、.parent属性を使用します。
私たちのhtml_docでは、タイトル文字列自体に親があります。それを含む<title>タグが
<html>のようなトップレベルのタグの親はBeautifulsoupオブジェクト自体です-
Beautifulsoupオブジェクトの.parentはなしとして定義されています-
。親
すべての親要素を反復するには、.parents属性を使用します。
横向き
以下は1つの簡単なドキュメントです-
上記のドキュメントでは、<b>タグと<c>タグは同じレベルにあり、どちらも同じタグの子です。 <b>タグと<c>タグはどちらも兄弟です。
.next_siblingおよび.previous_sibling
next_siblingおよび.previous_siblingを使用して、解析ツリーの同じレベルにあるページ要素間を移動します。.
<b>タグには.next_siblingがありますが、.previous_siblingはありません。これは、ツリーの同じレベルの<b>タグの前には何もないため、同じケースが<c>タグの場合です。
2つの文字列は同じ親を持っていないため、兄弟ではありません。
.next_siblingsおよび.previous_siblings
タグの兄弟を反復するには、.next_siblingsと.previous_siblingsを使用します。
行き来する
ここで、前の「html_doc」の例の最初の2行に戻りましょう-
HTMLパーサーは、上記の文字列を受け取り、「<html>タグを開く」、「<head>タグを開く」、「<title>タグを開く」、「文字列を追加する」などの一連のイベントに変換します。 「</title>タグを閉じる」、「</head>タグを閉じる」、「<h4>タグを開く」などです。 BeautifulSoupは、ドキュメントの初期解析を再構築するためのさまざまな方法を提供します。
.next_elementおよび.previous_element
タグまたは文字列の.next_element属性は、直後に解析されたものを指します。 .next_siblingに似ていることもありますが、完全に同じではありません。 以下は、「html_doc」サンプルドキュメントの最後の<a>タグです。
ただし、<a>タグの直後に解析された<a>タグの.next_elementは、その文の残りの部分ではありません。それは単語「C」です。
上記の動作は、元のマークアップでは、セミコロンの前に文字「C」が表示されていたためです。 パーサーは、<a>タグ、次に文字「C」、次に終了</a>タグ、次にセミコロンと文の残りの部分を検出しました。 セミコロンは<a>タグと同じレベルにありますが、文字「C」が最初にありました。
previous_element属性は、.next_elementの正反対です。 この要素の直前に解析された要素を指します。.
.next_elementsおよび.previous_elements
これらのイテレータを使用して、要素に前後に移動します。