Scrapy-feed-exports

提供:Dev Guides
移動先:案内検索

Scrapy-フィードのエクスポート

説明

フィードエクスポートは、サイトからスクレイピングされたデータを保存する方法で、*「エクスポートファイル」*を生成します。

シリアル化形式

複数のシリアル化形式とストレージバックエンドを使用して、フィードエクスポートはアイテムエクスポーターを使用し、スクレイプされたアイテムを含むフィードを生成します。

次の表は、サポートされている形式を示しています

Sr.No Format & Description
1

JSON

FEED_FORMATは_json_です

使用されるエクスポーターは_class scrapy.exporters.JsonItemExporter_です

2

JSON lines

FEED_FROMATは_jsonlines_です

使用されるエクスポーターは_class scrapy.exporters.JsonLinesItemExporter_です

3

CSV

FEED_FORMATは_CSV_です

使用されるエクスポーターは_class scrapy.exporters.CsvItemExporter_です

4

XML

FEED_FORMATは_xml_です

使用されるエクスポーターは_class scrapy.exporters.XmlItemExporter_です

*FEED_EXPORTERS* 設定を使用すると、サポートされている形式も拡張できます-
Sr.No Format & Description
1

Pickle

FEED_FORMATはピケルです

使用されるエクスポーターは_class scrapy.exporters.PickleItemExporter_です

2

Marshal

FEED_FORMATはマーシャルです

使用されるエクスポーターは_class scrapy.exporters.MarshalItemExporter_です

ストレージバックエンド

ストレージバックエンドは、URIを使用してフィードを保存する場所を定義します。

次の表は、サポートされているストレージバックエンドを示しています-

Sr.No Storage Backend & Description
1

Local filesystem

URIスキームは_file_であり、フィードの保存に使用されます。

2

FTP

URIスキームは_ftp_であり、フィードの保存に使用されます。

3

S3

URIスキームは_S3_であり、フィードはAmazon S3に保存されます。 外部ライブラリhttps://github.com/boto/botocore[botocore]またはhttps://github.com/boto/boto[boto]が必要です。

4

Standard output

URIスキームは_stdout_であり、フィードは標準出力に保存されます。

ストレージURIパラメーター

以下は、フィードの作成中に置き換えられるストレージURLのパラメーターです-

  • %(time)s:このパラメーターはタイムスタンプに置き換えられます。 *%(name)s:このパラメーターはスパイダー名に置き換えられます。

設定

次の表は、フィードのエクスポートを構成できる設定を示しています-

Sr.No Setting & Description
1
  • FEED_URI*

これは、フィードのエクスポートを有効にするために使用されるエクスポートフィードのURIです。

2

FEED_FORMAT

これは、フィードに使用されるシリアル化形式です。

3

FEED_EXPORT_FIELDS

エクスポートする必要があるフィールドを定義するために使用されます。

4

FEED_STORE_EMPTY

フィードをアイテムなしでエクスポートするかどうかを定義します。

5

FEED_STORAGES

追加のフィードストレージバックエンドを備えた辞書です。

6

FEED_STORAGES_BASE

フィードストレージバックエンドが組み込まれた辞書です。

7

FEED_EXPORTERS

フィードエクスポーターが追加された辞書です。

8

FEED_EXPORTERS_BASE

フィードエクスポーターが組み込まれた辞書です。