Scrapy-overview
提供:Dev Guides
スクレイピー-概要
ScrapyはPythonで書かれた高速でオープンソースのWebクロールフレームワークであり、XPathに基づくセレクターの助けを借りてWebページからデータを抽出するために使用されます。
Scrapyは、BSDでライセンスされた2008年6月26日に初めてリリースされ、2015年6月にマイルストーン1.0がリリースされました。
Scrapyを使用する理由
- 大規模なクロールプロジェクトを構築およびスケーリングする方が簡単です。
- Webサイトからデータを抽出するためのセレクターと呼ばれる組み込みのメカニズムがあります。
- 要求を非同期的に処理し、高速です。
- Auto-throttling mechanismを使用して、クロール速度を自動的に調整します。
- 開発者のアクセシビリティを確保します。
スクレイピーの特徴
- Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。
- Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。
- Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するための組み込みのサポートがあります。
- クローラーに基づいたスクレイピーにより、Webページからデータを自動的に抽出できます。
利点
- Scrapyは簡単に拡張でき、高速で強力です。
- これは、クロスプラットフォームアプリケーションフレームワーク(Windows、Linux、Mac OS、およびBSD)です。
- スクレイピーリクエストは、非同期でスケジュールおよび処理されます。
- Scrapyには Scrapyd という組み込みサービスが付属しており、JSON Webサービスを使用してプロジェクトをアップロードし、スパイダーを制御できます。
- 任意のWebサイトを廃棄することは可能ですが、そのWebサイトには生データアクセス用のAPIはありません。
デメリット
- ScrapyはPython 2.7専用です。
- インストールは、オペレーティングシステムごとに異なります。