この記事では、PythonのPandasライブラリを使用して、データの分割と集約に関する高度なテクニックについて詳しく解説します。具体的なコード例とその解説、応用例を含めています。Pandasを活用することで、データ解析がより効率的かつ高度になります。
目次
Pandasとは
PandasはPythonで使用されるデータ分析ライブラリの一つです。特に、テーブル形式のデータ(CSVやExcelなど)を効率的に処理するための強力な機能が多数備わっています。
基本的な使い方
Pandasを使用するにはまず、pandasパッケージをインストールし、インポートする必要があります。
import pandas as pd
データの分割
Pandasでは、`groupby`メソッドを用いてデータを分割することができます。
`groupby`の基本
# サンプルデータを作成
df = pd.DataFrame({
'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'],
'Name': ['Apple', 'Carrot', 'Banana', 'Spinach', 'Orange'],
'Quantity': [5, 10, 2, 7, 12]
})
# Categoryでグループ化
grouped = df.groupby('Category')
分割されたデータの確認
# 分割されたデータを確認
for name, group in grouped:
print(name)
print(group)
データの集約
データの集約も、Pandasで簡単に行うことができます。
`sum`メソッドによる集約
# Quantityで集約
grouped.sum()
`agg`メソッドで複数の集約
# 平均と合計を計算
grouped.agg({'Quantity': ['mean', 'sum']})
応用例1: フィルタリング
`sCode]
# Quantityが10以上のものだけ集約する
grouped.filter(lambda x: x[‘Quantity’].sum() >= 10)
コメント