Machine-learning-with-python-jupyter-notebook
機械学習-Jupyterノートブック
Jupyterノートブックは基本的に、Pythonベースのデータサイエンスアプリケーションを開発するためのインタラクティブな計算環境を提供します。 以前はipythonノートブックとして知られていました。 以下は、Python MLエコシステムの最高のコンポーネントの1つとなるJupyterノートブックの機能の一部です-
- Jupyterノートブックは、コード、画像、テキスト、出力などを整理することにより、分析プロセスを段階的に説明できます。 段階的な方法で。
- データ科学者が分析プロセスを開発しながら思考プロセスを文書化するのに役立ちます。
- 結果をノートブックの一部としてキャプチャすることもできます。
- Jupyterノートブックの助けを借りて、同僚と作業を共有することもできます。
インストールと実行
Anacondaディストリビューションを使用している場合、jupyterノートブックは既にインストールされているため、別途インストールする必要はありません。 あなただけのAnacondaプロンプトに移動し、次のコマンドを入力する必要があります-
C:\>jupyter notebook
Enterキーを押すと、コンピューターの_localhost:8888_でノートブックサーバーが起動します。 次のスクリーンショットに示されています-
ここで、[新規]タブをクリックすると、オプションのリストが表示されます。 Python 3を選択すると、新しいノートブックに移動して作業を開始できます。 次のスクリーンショットでそれを垣間見ることができます-
一方、標準のPythonディストリビューションを使用している場合は、一般的なpythonパッケージインストーラー_pip_を使用してjupyterノートブックをインストールできます。
pip install jupyter
Jupyter Notebookのセルの種類
以下は、jupyterノートブックの3つのタイプのセルです-
コードセル-名前が示すように、これらのセルを使用してコードを記述できます。 コード/コンテンツを作成した後、ノートブックに関連付けられているカーネルに送信します。
マークダウンセル-これらのセルを使用して、計算プロセスを記録できます。 テキスト、画像、ラテックス方程式、HTMLタグなどを含めることができます。
生セル-それらに書かれたテキストはそのまま表示されます。 これらのセルは基本的に、jupyter Notebookの自動変換メカニズムによって変換されたくないテキストを追加するために使用されます。
jupyterノートブックの詳細については、リンクlink:/jupyter/index [www.finddevguides.com/jupyter/index]にアクセスしてください。
NumPy
これは、Pythonをデータサイエンスのお気に入りの言語の1つにしたもう1つの便利なコンポーネントです。 これは基本的に数値Pythonの略で、多次元配列オブジェクトで構成されています。 NumPyを使用することにより、次の重要な操作を実行できます-
- 配列の数学および論理演算。
- フーリエ変換
- 線形代数に関連する演算。
NumPyは、Scipy(Scientific Python)およびMat-plotlib(プロットライブラリ)と一緒に使用されることが多いため、NumPyをMatLabの代替として見ることもできます。
インストールと実行
Anacondaディストリビューションを使用している場合、NumPyが既にインストールされているため、NumPyを個別にインストールする必要はありません。 あなただけの次の助けを借りて、Pythonスクリプトにパッケージをインポートする必要があります-
import numpy as np
一方、標準のPythonディストリビューションを使用している場合、NumPyは一般的なpythonパッケージインストーラーであるpipを使用してインストールできます。
pip install NumPy
NumPyをインストールしたら、上記で行ったようにPythonスクリプトにインポートできます。
NumPyの詳細については、リンクlink//numpy/index [www.finddevguides.com/numpy/index]にアクセスしてください。
パンダ
Pythonをデータサイエンスのお気に入りの言語の1つにするもう1つの便利なPythonライブラリです。 パンダは基本的に、データの操作、ラングリング、分析に使用されます。 2008年にWes McKinneyによって開発されました。 パンダの助けを借りて、データ処理では、次の5つのステップを達成できます-
- Load
- 準備する
- 操作する
- モデル
- 分析する
パンダのデータ表現
パンダのデータの全体の表現は、次の3つのデータ構造の助けを借りて行われます-
シリーズ-基本的には軸ラベルを持つ1次元のndarrayであり、同種のデータを持つ単純な配列のようなものです。 たとえば、次のシリーズは整数1,5,10,15,24,25 …のコレクションです。
1 | 5 | 10 | 15 | 24 | 25 | 28 | 36 | 40 | 89 |
データフレーム-最も有用なデータ構造であり、パンダのほぼすべての種類のデータ表現と操作に使用されます。 基本的には、異種データを含むことができる2次元のデータ構造です。 通常、表形式のデータはデータフレームを使用して表されます。 たとえば、次の表は、名前とロール番号、年齢、性別を持つ学生のデータを示しています。
Name | Roll number | Age | Gender |
---|---|---|---|
Aarav | 1 | 15 | Male |
Harshit | 2 | 14 | Male |
Kanika | 3 | 16 | Female |
Mayank | 4 | 15 | Male |
パネル-異種データを含む3次元のデータ構造です。 パネルをグラフィカルな表現で表現することは非常に困難ですが、DataFrameのコンテナとして説明できます。
次の表は、パンダで使用される上記のデータ構造に関するディメンションと説明を示しています-
Data Structure | Dimension | Description |
---|---|---|
Series | 1-D | Size immutable, 1-D homogeneous data |
DataFrames | 2-D | Size Mutable, Heterogeneous data in tabular form |
Panel | 3-D | Size-mutable array, container of DataFrame. |
高次元のデータ構造は低次元のデータ構造のコンテナであるため、これらのデータ構造を理解できます。
インストールと実行
Anacondaディストリビューションを使用している場合は、_Pandas_が既にインストールされているため、別途インストールする必要はありません。 あなただけの次の助けを借りて、Pythonスクリプトにパッケージをインポートする必要があります-
import pandas as pd
一方、標準のPythonディストリビューションを使用している場合、Pandaは一般的なpythonパッケージインストーラー_pip_を使用してインストールできます。
pip install Pandas
_Pandas_をインストールしたら、上記のようにPythonスクリプトにインポートできます。
例
以下は、_Pandas_を使用してndarrayからシリーズを作成する例です-
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = np.array(['g','a','u','r','a','v'])
In [4]: s = pd.Series(data)
In [5]: print (s)
0 g
1 a
2 u
3 r
4 a
5 v
dtype: object
パンダの詳細については、リンク:/python_pandas/index [www.finddevguides.com/python_pandas/index]にアクセスしてください。
シキット学習
Pythonのデータサイエンスと機械学習のためのもう1つの便利で最も重要なPythonライブラリは、_Scikit-learn_です。 以下は、_Scikit-learn_のいくつかの機能で、非常に便利です-
- NumPy、SciPy、およびMatplotlib上に構築されています。
- これはオープンソースであり、BSDライセンスの下で再利用できます。
- 誰でもアクセスでき、さまざまなコンテキストで再利用できます。
- 分類、クラスタリング、回帰、次元削減、モデル選択などのMLの主要領域をカバーする幅広い機械学習アルゴリズム。 それの助けを借りて実装することができます。
インストールと実行
Anacondaディストリビューションを使用している場合は、Scikit-learnが既にインストールされているため、別途インストールする必要はありません。 パッケージをPythonスクリプトに使用するだけです。 たとえば、次のスクリプト行では、 Scikit-learn から乳がん患者のデータセットをインポートしています-
from sklearn.datasets import load_breast_cancer
一方、標準のPythonディストリビューションを使用していて、NumPyとSciPyを使用している場合、人気のあるpythonパッケージインストーラーであるpipを使用してScikit-learnをインストールできます。
pip install -U scikit-learn
Scikit-learnをインストールした後、上記で行ったようにPythonスクリプトで使用できます。