Pythonで複数のデータフレームを効率的に結合する方法

この記事では、Pythonのpandasライブラリを用いて複数のデータフレームを結合する方法について詳しく解説します。具体的なコード例とその解説、応用例を含めています。

目次

はじめに

データ解析や機械学習のプロジェクトにおいて、データフレームの結合は頻繁に行われる操作です。Pythonのpandasライブラリにはこのための多数の機能が備わっていますが、その中でも`merge`、`concat`、`join`などの主要なメソッドに焦点を当てて解説します。

基本的な結合方法

最も基本的なデータフレームの結合方法について説明します。

merge関数を用いた結合

`sCode`
import pandas as pd

# データフレームを作成
df1 = pd.DataFrame({
‘ID’: [1, 2, 3],
‘Name’: [‘Alice’, ‘Bob’, ‘Charlie’]
})

df2 = pd.DataFrame({
‘ID’: [3, 4, 5],
‘Score’: [90, 85, 88]
})

# df1とdf2を結合
merged_df = pd.merge(df1, df2, on=’ID’, how=’inner’)

print(merged_df)

上のコードでは、`ID`列を基に`df1`と`df2`を内部結合しています。

concat関数を用いた結合

`sCode`
# 縦方向に結合
concatenated_df = pd.concat([df1, df2], axis=0, ignore_index=True)

print(concatenated_df)

応用例

ここでは、実際の業務で役立つ応用例をいくつか紹介します。

複数のキーでの結合

`sCode`
# 複数のキーで結合
merged_multikey_df = pd.merge(df1, df2, left_on=[‘ID’, ‘Name’], right_on=[‘ID’, ‘Name’])
print(merged_multikey_df)