Scrapy-overview

提供:Dev Guides
移動先:案内検索

スクレイピー-概要

ScrapyはPythonで書かれた高速でオープンソースのWebクロールフレームワークであり、XPathに基づくセレクターの助けを借りてWebページからデータを抽出するために使用されます。

Scrapyは、BSDでライセンスされた2008年6月26日に初めてリリースされ、2015年6月にマイルストーン1.0がリリースされました。

Scrapyを使用する理由

  • 大規模なクロールプロジェクトを構築およびスケーリングする方が簡単です。
  • Webサイトからデータを抽出するためのセレクターと呼ばれる組み込みのメカニズムがあります。
  • 要求を非同期的に処理し、高速です。
  • Auto-throttling mechanismを使用して、クロール速度を自動的に調整します。
  • 開発者のアクセシビリティを確保します。

スクレイピーの特徴

  • Scrapyはオープンソースであり、無料で使用できるWebクロールフレームワークです。
  • Scrapyは、JSON、CSV、XMLなどの形式でフィードエクスポートを生成します。
  • Scrapyには、XPathまたはCSS式のいずれかによってソースからデータを選択および抽出するための組み込みのサポートがあります。
  • クローラーに基づいたスクレイピーにより、Webページからデータを自動的に抽出できます。

利点

  • Scrapyは簡単に拡張でき、高速で強力です。
  • これは、クロスプラットフォームアプリケーションフレームワーク(Windows、Linux、Mac OS、およびBSD)です。
  • スクレイピーリクエストは、非同期でスケジュールおよび処理されます。
  • Scrapyには Scrapyd という組み込みサービスが付属しており、JSON Webサービスを使用してプロジェクトをアップロードし、スパイダーを制御できます。
  • 任意のWebサイトを廃棄することは可能ですが、そのWebサイトには生データアクセス用のAPIはありません。

デメリット

  • ScrapyはPython 2.7専用です。
  • インストールは、オペレーティングシステムごとに異なります。