Beautiful-soup

提供:Dev Guides
移動先:案内検索

美しいスープのチュートリアル

__リンク:/beautiful_soup/beautiful_soup_pdf_version [PDFバージョン]

__リンク:/beautiful_soup/beautiful_soup_quick_guide [クイックガイド]

__リンク:/beautiful_soup/beautiful_soup_useful_resources [リソース]

__ 仕事探し

__リンク:/beautiful_soup/beautiful_soup_discussion [ディスカッション]

このチュートリアルでは、Beautiful Soup 4を使用してPythonでWebスクレイピングを実行し、HTML、XML、その他のマークアップ言語からデータを取得する方法を示します。 これでは、さまざまな異なるWebサイト(IMDBを含む)からWebページをスクラップしようとします。 美しいスープ4、HTML Webページを効率的かつ明確にナビゲート、検索、解析するためのPython基本ツールについて説明します。 このチュートリアルでは、Beautiful Soup 4のほぼすべての機能について説明しました。 このチュートリアルで紹介した複数の機能を1つの大きなプログラムに組み合わせて、Webサイトから他のサブプログラムに複数の意味のあるデータを入力として取り込むことができます。

聴衆

このチュートリアルは、基本的にはWebページを削除する際のガイドとして作成されています。 これらすべての基本的な要件は、組織化されていない膨大なデータセットから意味のあるデータを取得することです。 このチュートリアルの対象読者は、次のいずれかです。

  • 知りたい人– BeautifulSoup 4を使用してPythonでWebページをスクラップする方法
  • データサイエンスの開発者/愛好家、または誰でも、このスクレイピングされた(意味のある)データをさまざまなpythonデータサイエンスライブラリに使用して、より適切な意思決定をしたいと考えています。

前提条件

ただし、このチュートリアルに必須の要件はありません。 しかし、あなたが追加の利点となる以下に言及する技術のいずれかまたはすべて(超クール)の事前知識を持っている場合-

  • Web関連技術(HTML/CSS/ドキュメントオブジェクトモデルなど)に関する知識。
  • Python言語(Pythonパッケージであるため)。
  • 任意の言語でのスクレイピングの事前知識がある開発者。
  • HTMLツリー構造の基本的な理解。