Big-data-analytics-data-analysis-tools

提供:Dev Guides
移動先:案内検索

ビッグデータ分析-データ分析ツール

データサイエンティストがデータを効果的に分析できるようにするさまざまなツールがあります。 通常、データ分析のエンジニアリングの側面はデータベースに焦点を当てており、データ科学者はデータ製品を実装できるツールに焦点を当てています。 次のセクションでは、さまざまなツールの利点について、データサイエンティストが実際に最も頻繁に使用する統計パッケージを中心に説明します。

Rプログラミング言語

Rは、統計分析に重点を置いたオープンソースのプログラミング言語です。 SAS、SPSSなどの商用ツールと統計機能の面で競争力があります。 C、C ++、Fortranなどの他のプログラミング言語へのインターフェースと考えられています。

Rのもう1つの利点は、利用可能な多数のオープンソースライブラリです。 CRANには無料でダウンロードできる6000以上のパッケージがあり、 Github にはさまざまなRパッケージがあります。

パフォーマンスの点では、使用可能なライブラリが大量にあるため、コードの遅いセクションがコンパイルされた言語で記述されているため、Rは集中的な操作に対して遅いです。 ただし、深いforループの書き込みを必要とする操作を実行する場合は、Rが最適な選択肢ではありません。 データ分析のために、 data.table、glmnet、ranger、xgboost、ggplot2、caret などの優れたライブラリがあり、高速プログラミング言語へのインターフェイスとしてRを使用できます。

データ分析用のPython

Pythonは汎用プログラミング言語であり、 pandas、scikit-learn、theano、numpyscipy などのデータ分析専用のライブラリが多数含まれています。

Rで利用できる機能のほとんどはPythonでも実行できますが、Rの方が使いやすいことがわかりました。 大規模なデータセットを使用している場合、通常はRよりもPythonの方が適しています。 Pythonを非常に効果的に使用して、データを1行ずつクリーンアップおよび処理できます。 これはRからは可能ですが、スクリプトタスクのPythonほど効率的ではありません。

機械学習の場合、 scikit-learn は、中規模のデータセットを問題なく処理できる大量のアルゴリズムを利用できる優れた環境です。 Rの同等のライブラリ(キャレット)と比較して、 scikit-learn はよりクリーンで一貫性のあるAPIを備えています。

ジュリア

ジュリアは、テクニカルコンピューティング向けの高レベルで高性能な動的プログラミング言語です。 その構文はRまたはPythonと非常に似ているため、すでにRまたはPythonを使用している場合は、同じコードをJuliaで書くのは非常に簡単です。 この言語はかなり新しく、ここ数年で大幅に成長しているため、現時点では間違いなくオプションです。

ニューラルネットワークなどの計算集約的なプロトタイピングアルゴリズムには、ジュリアをお勧めします。 それは研究のための素晴らしいツールです。 実稼働環境でモデルを実装するという点では、おそらくPythonにはより優れた選択肢があります。 ただし、R、Python、およびJuliaでモデルを実装するエンジニアリングを行うWebサービスがあるため、これは問題になりつつあります。

SAS

SASは、ビジネスインテリジェンスにまだ使用されている商用言語です。 ユーザーが多種多様なアプリケーションをプログラムできるようにする基本言語を備えています。 専門家ではないユーザーがプログラミングを必要とせずにニューラルネットワークライブラリなどの複雑なツールを使用できるようにする商用製品が多数含まれています。

商用ツールの明らかな欠点を超えて、SASは大規模なデータセットにうまく対応できません。 中規模のデータセットでもSASに問題があり、サーバーがクラッシュします。 小規模なデータセットを使用していて、ユーザーがデータ科学の専門家でない場合にのみ、SASをお勧めします。 上級ユーザー向けに、RとPythonはより生産的な環境を提供します。

SPSS

SPSSは現在、統計分析用のIBMの製品です。 主に調査データを分析するために使用され、プログラムできないユーザーにとっては、まともな代替手段です。 SASと同じくらい簡単に使用できますが、モデルの実装に関しては、モデルをスコアリングするSQLコードが提供されるため、より簡単です。 通常、このコードは効率的ではありませんが、SASは各データベースのモデルを個別にスコアリングする製品を販売しているのに対し、開始点です。 小さなデータと未経験のチームの場合、SPSSはSASと同様に優れたオプションです。

ただし、ソフトウェアはかなり制限されており、経験豊富なユーザーは、RまたはPythonを使用することで生産性が大幅に向上します。

Matlab、Octave

Matlabやそのオープンソースバージョン(Octave)など、他のツールも利用できます。 これらのツールは主に研究に使用されます。 機能に関しては、RまたはPythonはMatlabまたはOctaveで利用可能なすべてを実行できます。 製品が提供するサポートに興味がある場合にのみ、製品のライセンスを購入するのが理にかなっています。