Scrapy-first-spider
提供:Dev Guides
スクレイピー-最初のSp
説明
Spiderは、データを抽出する初期URL、ページネーションリンクをたどる方法、 items.py で定義されたフィールドを抽出および解析する方法を定義するクラスです。 Scrapyは、それぞれが特定の目的を果たすさまざまなタイプのスパイダーを提供します。
first_scrapy/spidersディレクトリの下に "first_spider.py" というファイルを作成します。ここで、探している正確なデータを見つける方法をScrapyに指示できます。 このためには、いくつかの属性を定義する必要があります-
- name -スパイダーの一意の名前を定義します。
- allowed_domains -クモがクロールするためのベースURLが含まれています。
- start-urls -クモがクロールを開始するURLのリスト。
- * parse()*-スクレイピングされたデータを抽出して解析するメソッドです。
次のコードは、スパイダーコードがどのように見えるかを示しています-
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + 'l'
with open(filename, 'wb') as f:
f.write(response.body)