Python-data-science-python-reading-html-pages
提供:Dev Guides
Python-HTMLページの読み取り
beautifulsoupとして知られるライブラリ。 このライブラリを使用して、htmlタグの値を検索し、ページのタイトルやページ内のヘッダーのリストなどの特定のデータを取得できます。
Beautifulsoupをインストールする
Anacondaパッケージマネージャーを使用して、必要なパッケージとその依存パッケージをインストールします。
HTMLファイルを読む
以下の例では、Python環境にロードされるURLへのリクエストを作成します。 次に、htmlパーサーパラメーターを使用して、htmlファイル全体を読み取ります。 次に、htmlページの最初の数行を印刷します。
上記のコードを実行すると、次の結果が生成されます。
タグ値の抽出
次のコードを使用して、タグの最初のインスタンスからタグ値を抽出できます。
上記のコードを実行すると、次の結果が生成されます。
すべてのタグの抽出
次のコードを使用して、タグのすべてのインスタンスからタグ値を抽出できます。
上記のコードを実行すると、次の結果が生成されます。