Scrapy-first-spider

提供:Dev Guides
移動先:案内検索

スクレイピー-最初のSp

説明

Spiderは、データを抽出する初期URL、ページネーションリンクをたどる方法、 items.py で定義されたフィールドを抽出および解析する方法を定義するクラスです。 Scrapyは、それぞれが特定の目的を果たすさまざまなタイプのスパイダーを提供します。

first_scrapy/spidersディレクトリの下に "first_spider.py" というファイルを作成します。ここで、探している正確なデータを見つける方法をScrapyに指示できます。 このためには、いくつかの属性を定義する必要があります-

  • name -スパイダーの一意の名前を定義します。
  • allowed_domains -クモがクロールするためのベースURLが含まれています。
  • start-urls -クモがクロールを開始するURLのリスト。
  • * parse()*-スクレイピングされたデータを抽出して解析するメソッドです。

次のコードは、スパイダーコードがどのように見えるかを示しています-

import scrapy

class firstSpider(scrapy.Spider):
   name = "first"
   allowed_domains = ["dmoz.org"]

   start_urls = [
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
      filename = response.url.split("/")[-2] + 'l'
      with open(filename, 'wb') as f:
         f.write(response.body)