Scrapy-overview

提供：Dev Guides

移動先:案内、検索

スクレイピー-概要

ScrapyはPythonで書かれた高速でオープンソースのWebクロールフレームワークであり、XPathに基づくセレクターの助けを借りてWebページからデータを抽出するために使用されます。

Scrapyは、BSDでライセンスされた2008年6月26日に初めてリリースされ、2015年6月にマイルストーン1.0がリリースされました。

Scrapyを使用する理由

大規模なクロールプロジェクトを構築およびスケーリングする方が簡単です。
Webサイトからデータを抽出するためのセレクターと呼ばれる組み込みのメカニズムがあります。
要求を非同期的に処理し、高速です。
Auto-throttling mechanismを使用して、クロール速度を自動的に調整します。
開発者のアクセシビリティを確保します。

スクレイピーの特徴

Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。
Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。
Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するための組み込みのサポートがあります。
クローラーに基づいたスクレイピーにより、Webページからデータを自動的に抽出できます。

利点

Scrapyは簡単に拡張でき、高速で強力です。
これは、クロスプラットフォームアプリケーションフレームワーク（Windows、Linux、Mac OS、およびBSD）です。
スクレイピーリクエストは、非同期でスケジュールおよび処理されます。
Scrapyには Scrapyd という組み込みサービスが付属しており、JSON Webサービスを使用してプロジェクトをアップロードし、スパイダーを制御できます。
任意のWebサイトを廃棄することは可能ですが、そのWebサイトには生データアクセス用のAPIはありません。

デメリット

ScrapyはPython 2.7専用です。

インストールは、オペレーティングシステムごとに異なります。

「https://www.finddevguides.com/index.php?title=Scrapy-overview&oldid=20399」から取得

Scrapy Tutorial