Big-data-analytics-r-introduction
ビッグデータ分析-Rの概要
このセクションでは、ユーザーにRプログラミング言語を紹介します。 Rはhttps://cran.r-project.org/[cran website]からダウンロードできます。 Windowsユーザーの場合、https://cran.r-project.org/bin/windows/Rtools/[install rtools]およびhttps://www.rstudio.com/[rstudio IDE]が役立ちます。
ブックのzipファイル bda/part2/R_introduction のフォルダーに移動し、 R_introduction.Rproj ファイルを開きます。 これにより、RStudioセッションが開きます。 次に、01_vectors.Rファイルを開きます。 スクリプトを1行ずつ実行し、コード内のコメントに従ってください。 学習するための別の便利なオプションは、コードを入力するだけです。これは、R構文に慣れるのに役立ちます。 Rでは、コメントは#記号で記述されます。
ブックでRコードを実行した結果を表示するために、コードが評価された後、Rが返す結果にコメントが付けられます。 このようにして、コードをコピーして本に貼り付け、Rでそのセクションを直接試すことができます。
前のコードで何が起こったのか分析しましょう。 数字と文字でベクトルを作成できることがわかります。 事前にどのタイプのデータ型が必要かをRに伝える必要はありませんでした。 最後に、数字と文字の両方を含むベクターを作成できました。 ベクトルmixed_vecは数値を文字に強制しました。これは、引用符内で値がどのように印刷されるかを視覚化することで確認できます。
次のコードは、関数クラスによって返されるさまざまなベクトルのデータ型を示しています。 クラス関数を使用してオブジェクトに「問い合わせ」を行い、自分のクラスが何であるかを尋ねることが一般的です。
Rは2次元オブジェクトもサポートします。 次のコードには、Rで使用される2つの最も一般的なデータ構造の例があります:matrixとdata.frameです。
前の例で示したように、同じオブジェクトで異なるデータ型を使用することが可能です。 一般に、これはデータがデータベースでどのように表示されるかであり、データのAPI部分はテキストまたは文字ベクトルと他の数値です。 Inは、割り当てる統計データ型を決定し、それに適切なRデータ型を使用するアナリストの仕事です。 統計では、通常、変数は次のタイプであると考えます-
- 数値
- 名義またはカテゴリー
- 序数
Rでは、ベクトルは次のクラスになります-
- 数値-整数
- 因子
- 順序付けられた因子
Rは、変数の統計タイプごとにデータタイプを提供します。 ただし、順序付けられた因子はめったに使用されませんが、関数因子によって作成されるか、順序付けられます。
次のセクションでは、インデックス付けの概念を扱います。 これは非常に一般的な操作であり、オブジェクトのセクションを選択して変換する問題を処理します。