Big-data-analytics-data-visualization
提供:Dev Guides
ビッグデータ分析-データの可視化
データを理解するために、それを視覚化することがしばしば役立ちます。 通常、ビッグデータアプリケーションでは、関心は単に美しいプロットを作成するのではなく、洞察を見つけることに依存しています。 以下は、プロットを使用してデータを理解するためのさまざまなアプローチの例です。
フライトデータの分析を開始するには、数値変数間に相関関係があるかどうかを確認することから始めます。 このコードは bda/part1/data_visualization/data_visualization.R ファイルでも利用できます。
このコードは、次の相関行列の可視化を生成します-
プロットでは、データセット内のいくつかの変数間に強い相関関係があることがわかります。 たとえば、到着遅延と出発遅延は非常に相関しているようです。 これは、楕円が両方の変数の間でほぼ直線的な関係を示しているためにわかりますが、この結果から因果関係を見つけることは簡単ではありません。
2つの変数が相関しているため、一方が他方に影響を与えるとは言えません。 また、プロットでは、飛行時間と距離の間に強い相関関係があることがわかります。これは、飛行距離が長くなると、飛行時間が長くなるため、かなり合理的です。
データの単変量解析を行うこともできます。 分布を視覚化する簡単で効果的な方法は、ボックスプロット*です。 次のコードは、ggplot2ライブラリを使用して箱ひげ図と格子図を作成する方法を示しています。 このコードは *bda/part1/data_visualization/boxplots.R ファイルでも利用できます。