Pythonのpandasで外部データをインポート・エクスポートする方法

この記事では、Pythonのpandasライブラリを用いて外部データをインポート(読み込み)とエクスポート(書き出し)する手法について解説します。CSV、Excel、JSONといった多様なファイル形式に対応しています。具体的なコード例とその解説、応用例を含めています。

目次

はじめに

データ分析や機械学習において、外部のデータファイルを効率よく取り扱うスキルは必須です。Pythonのpandasライブラリは、そのような作業を簡単かつ高速に行うことができる強力なツールです。

pandasとは?

pandasは、データ解析のためのPythonライブラリであり、特に表形式のデータを効率よく処理することができます。NumPyを基盤としており、高度なデータ操作が可能です。

基本的なデータインポート

CSVファイルのインポート

import pandas as pd

# CSVファイルを読み込む
df = pd.read_csv('sample.csv')

# データの確認
print(df.head())

このコードは、`sample.csv`というCSVファイルをDataFrameとして読み込んでいます。`pd.read_csv()`関数がその役割を果たしています。

Excelファイルのインポート

# Excelファイルを読み込む
df = pd.read_excel('sample.xlsx')

# データの確認
print(df.head())

Excelファイルも同様に、`pd.read_excel()`関数を使用して読み込むことができます。

基本的なデータエクスポート

CSVファイルへのエクスポート

# CSVファイルとして書き出す
df.to_csv('output.csv', index=False)

`df.to_csv()`メソッドで、DataFrameをCSVファイルとして保存できます。`index=False`は、DataFrameのインデックスを保存しない設定です。

Excelファイルへのエクスポート

# Excelファイルとして書き出す
df.to_excel('output.xlsx', index=False)

Excelファイルも`df.to_excel()`メソッドで簡単に書き出せます。

応用例

複数のシートを読み込む

# 複数のシートを読み込む
all_sheets = pd.read_excel('multi_sheet.xlsx', sheet_name=None)

# シート名でアクセス
print(all_sheets['Sheet1'].head())

このコードでは、`sheet_name=None`によってExcelファイル内の全てのシートを読み込んでいます。

JSON形式でエクスポート

# JSON形式で書き出す
df.to_json('output.json', orient='split')

この例では、`df.to_json()`メソッドを用いてDataFrameをJSON形式でエクスポートしています。`orient=’split’`は、データを分割して保存する設定です。

まとめ

pandasは、多様なデータ形式のインポートとエクスポートを容易に行うことができます。この記事で紹介した手法を活用することで、より効率的なデータ処理が可能となります。

コメント

コメントする

目次