Agile-data-science-data-visualization

提供:Dev Guides
移動先:案内検索

アジャイルデータサイエンス-データの可視化

データの視覚化は、データサイエンスにおいて非常に重要な役割を果たします。 データの視覚化は、データサイエンスのモジュールと考えることができます。 データサイエンスには、予測モデルの構築以上のものが含まれています。 モデルの説明と、モデルを使用してデータを理解し、意思決定を行うことが含まれます。 データの視覚化は、最も説得力のある方法でデータを提示するための不可欠な部分です。

データサイエンスの観点から見ると、データの視覚化は、変化と傾向を示す強調表示機能です。

効果的なデータ視覚化のために次のガイドラインを考慮してください-

  • 一般的なスケールに沿ってデータを配置します。
  • バーの使用は、円と正方形の比較でより効果的です。
  • 散布図には適切な色を使用する必要があります。
  • 円グラフを使用して比率を表示します。
  • サンバーストの視覚化は、階層プロットに対してより効果的です。

アジャイルには、データの視覚化のためのシンプルなスクリプト言語が必要であり、データサイエンスとのコラボレーションでは、「Python」がデータの視覚化に推奨される言語です。

例1

次の例は、特定の年に計算されたGDPのデータ視覚化を示しています。 「Matplotlib」は、Pythonでのデータ視覚化に最適なライブラリです。 このライブラリのインストールは以下に示されています-

データの視覚化のデモ

これを理解するために、次のコードを検討してください-

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

出力

上記のコードは、次の出力を生成します-

コード生成

軸ラベル、ラインスタイル、ポイントマーカーを使用してグラフをカスタマイズする方法は多数あります。 優れたデータ視覚化を示す次の例に焦点を当てましょう。 これらの結果は、より良い出力に使用できます。

例2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

出力

上記のコードは、次の出力を生成します-

コード生成2番目