Pyspark-serializers
提供:Dev Guides
PySpark-シリアライザー
シリアル化は、Apache Sparkのパフォーマンスチューニングに使用されます。 ネットワーク経由で送信されるデータ、ディスクに書き込まれるデータ、またはメモリに保存されるデータはすべてシリアル化する必要があります。 シリアル化は、コストのかかる操作で重要な役割を果たします。
PySparkは、パフォーマンスチューニングのためにカスタムシリアライザーをサポートしています。 次の2つのシリアライザーはPySparkでサポートされています-
MarshalSerializer
PythonのMarshal Serializerを使用してオブジェクトをシリアル化します。 このシリアライザーはPickleSerializerよりも高速ですが、サポートするデータ型の数は少なくなります。
PickleSerializer
PythonのPickle Serializerを使用してオブジェクトをシリアル化します。 このシリアライザーは、ほぼすべてのPythonオブジェクトをサポートしますが、より専門的なシリアライザーほど高速ではない場合があります。
PySparkのシリアル化の例を見てみましょう。 ここでは、MarshalSerializerを使用してデータをシリアル化します。
コマンド-コマンドは次のとおりです-
出力-上記のコマンドの出力は-