Scrapy-crawling

提供:Dev Guides
移動先:案内検索

スクレイピー-クロール

説明

スパイダーを実行するには、_first_scrapy_ディレクトリ内で次のコマンドを実行します-

scrapy crawl first

ここで、 first は、スパイダーの作成中に指定されたスパイダーの名前です。

クモがクロールすると、次の出力を見ることができます-

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200)
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

出力でわかるように、各URLには、_(referer:None)_というURLがあり、URLが開始URLであり、リファラーがないことを示すログ行があります。 次に、_Booksl_および_Resourcesl_という名前の2つの新しいファイルが_first_scrapy_ディレクトリに作成されます。