Agile-data-science-data-visualization
提供:Dev Guides
アジャイルデータサイエンス-データの可視化
データの視覚化は、データサイエンスにおいて非常に重要な役割を果たします。 データの視覚化は、データサイエンスのモジュールと考えることができます。 データサイエンスには、予測モデルの構築以上のものが含まれています。 モデルの説明と、モデルを使用してデータを理解し、意思決定を行うことが含まれます。 データの視覚化は、最も説得力のある方法でデータを提示するための不可欠な部分です。
データサイエンスの観点から見ると、データの視覚化は、変化と傾向を示す強調表示機能です。
効果的なデータ視覚化のために次のガイドラインを考慮してください-
- 一般的なスケールに沿ってデータを配置します。
- バーの使用は、円と正方形の比較でより効果的です。
- 散布図には適切な色を使用する必要があります。
- 円グラフを使用して比率を表示します。
- サンバーストの視覚化は、階層プロットに対してより効果的です。
アジャイルには、データの視覚化のためのシンプルなスクリプト言語が必要であり、データサイエンスとのコラボレーションでは、「Python」がデータの視覚化に推奨される言語です。
例1
次の例は、特定の年に計算されたGDPのデータ視覚化を示しています。 「Matplotlib」は、Pythonでのデータ視覚化に最適なライブラリです。 このライブラリのインストールは以下に示されています-
これを理解するために、次のコードを検討してください-
import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]
# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')
# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()
出力
上記のコードは、次の出力を生成します-
軸ラベル、ラインスタイル、ポイントマーカーを使用してグラフをカスタマイズする方法は多数あります。 優れたデータ視覚化を示す次の例に焦点を当てましょう。 これらの結果は、より良い出力に使用できます。
例2
import datetime
import random
import matplotlib.pyplot as plt
# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]
# plot
plt.plot(x,y)
# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()
出力
上記のコードは、次の出力を生成します-