Python-data-science-python-processing-csv-data
Python-CSVデータの処理
CSV(カンマ区切り値)からデータを読み取ることは、データサイエンスの基本的な必要性です。 多くの場合、他のシステムで使用できるように、CSV形式にエクスポートできるさまざまなソースからデータを取得します。 Panadasライブラリは、CSVファイルを完全に読み取ることができる機能と、選択した列と行のグループのみの部分を読み取る機能を提供します。
CSVファイルとして入力
csvファイルは、列の値がコンマで区切られたテキストファイルです。 input.csv という名前のファイルに存在する次のデータを考えてみましょう。
このデータをコピーして貼り付けることにより、Windowsのメモ帳を使用してこのファイルを作成できます。 メモ帳の[すべてのファイルとして保存(。)]オプションを使用して、ファイルを input.csv として保存します。
CSVファイルの読み取り
pandasライブラリの read_csv 関数は、CSVファイルの内容をpandas DataFrameとしてPython環境に読み込むために使用されます。 この関数は、ファイルへの適切なパスを使用して、OSからファイルを読み取ることができます。
上記のコードを実行すると、次の結果が生成されます。 関数によってインデックスとしてゼロで始まる追加の列がどのように作成されたかに注意してください。
特定の行の読み取り
pandasライブラリの read_csv 関数を使用して、特定の列の特定の行を読み取ることもできます。 salaryという名前の列の最初の5行について、以下に示すコードを使用してread_csv関数から結果をスライスします。
上記のコードを実行すると、次の結果が生成されます。
特定の列の読み取り
パンダライブラリの read_csv 関数を使用して、特定の列を読み取ることもできます。 この目的のために、*。loc()*と呼ばれる多軸インデックスメソッドを使用します。 すべての行の給与と名前の列を表示することを選択します。
上記のコードを実行すると、次の結果が生成されます。
特定の列と行の読み取り
pandasライブラリの read_csv 関数を使用して、特定の列および特定の行を読み取ることもできます。 この目的のために、*。loc()*と呼ばれる多軸インデックスメソッドを使用します。 一部の行の給与と名前の列を表示することを選択します。
上記のコードを実行すると、次の結果が生成されます。
行の範囲の特定の列の読み取り
pandasライブラリの read_csv 関数を使用して、特定の列と行の範囲を読み取ることもできます。 この目的のために、*。loc()*と呼ばれる多軸インデックスメソッドを使用します。 一部の行の給与と名前の列を表示することを選択します。
上記のコードを実行すると、次の結果が生成されます。