Scrapy-first-spider
提供:Dev Guides
スクレイピー-最初のSp
説明
Spiderは、データを抽出する初期URL、ページネーションリンクをたどる方法、 items.py で定義されたフィールドを抽出および解析する方法を定義するクラスです。 Scrapyは、それぞれが特定の目的を果たすさまざまなタイプのスパイダーを提供します。
first_scrapy/spidersディレクトリの下に "first_spider.py" というファイルを作成します。ここで、探している正確なデータを見つける方法をScrapyに指示できます。 このためには、いくつかの属性を定義する必要があります-
- name -スパイダーの一意の名前を定義します。
- allowed_domains -クモがクロールするためのベースURLが含まれています。
- start-urls -クモがクロールを開始するURLのリスト。
- * parse()*-スクレイピングされたデータを抽出して解析するメソッドです。
次のコードは、スパイダーコードがどのように見えるかを示しています-