Pyspark-storagelevel
提供:Dev Guides
PySpark-StorageLevel
StorageLevelは、RDDの保存方法を決定します。 Apache Sparkでは、StorageLevelはRDDをメモリに保存するか、ディスクに保存するか、またはその両方を決定します。 また、RDDをシリアル化するかどうか、およびRDDパーティションを複製するかどうかも決定します。
次のコードブロックには、StorageLevelのクラス定義があります-
さて、RDDのストレージを決定するために、以下に示すさまざまなストレージレベルがあります-
- DISK_ONLY = StorageLevel(True、False、False、False、1)
- DISK_ONLY_2 = StorageLevel(True、False、False、False、2)
- MEMORY_AND_DISK = StorageLevel(True、True、False、False、1)
- MEMORY_AND_DISK_2 = StorageLevel(True、True、False、False、2)
- MEMORY_AND_DISK_SER = StorageLevel(True、True、False、False、1)
- MEMORY_AND_DISK_SER_2 = StorageLevel(True、True、False、False、2)
- MEMORY_ONLY = StorageLevel(False、True、False、False、1)
- MEMORY_ONLY_2 = StorageLevel(False、True、False、False、2)
- MEMORY_ONLY_SER = StorageLevel(False、True、False、False、1)
- MEMORY_ONLY_SER_2 = StorageLevel(False、True、False、False、2)
- OFF_HEAP = StorageLevel(True、True、True、False、1)
次のStorageLevelの例を考えてみましょう。ここでは、ストレージレベル* MEMORY_AND_DISK_2、*を使用します。これは、RDDパーティションに2のレプリケーションがあることを意味します。
コマンド-コマンドは次のとおりです-
出力-上記のコマンドの出力は以下のとおりです-