pandasでデータのフィルタリングと選択を理解する

この記事では、Pythonのライブラリであるpandasを使ったデータのフィルタリングと選択について詳しく解説します。具体的なコード例とその解説、応用例を含めています。

目次

はじめに

pandasはPythonでデータ解析を行うための強力なライブラリです。CSV、Excel、SQLなど多くのデータ形式に対応しており、データのフィルタリングや選択も非常に柔軟です。この記事では、基本的なデータのフィルタリングと選択の方法から、より高度なテクニックまでを紹介します。

pandasの基本

pandasを使用する前に、まずは基本的なセットアップから始めましょう。

インストールとインポート

# pandasをインストール
!pip install pandas

# pandasをインポート
import pandas as pd

基本的なフィルタリング

DataFrameから特定の列を選択する

# サンプルのDataFrameを作成
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['Tokyo', 'Osaka', 'Nagoya']
})

# "Name"列を選択
selected_data = df['Name']

このコードの解説

この例では、`Name`列だけを選択しています。`df[‘Name’]`というコードで、DataFrameから特定の列を選択することができます。

複数の条件でフィルタリングする

# 年齢が30以上で、かつCityが'Tokyo'のデータをフィルタリング
filtered_data = df[(df['Age'] >= 30) & (df['City'] == 'Tokyo')]

このコードの解説

`&`オペレータを使用して、複数の条件でフィルタリングを行っています。この場合、年齢が30以上で、さらに都市が’Tokyo’であるデータが選択されます。

応用例

例1:欠損値の除去

# 欠損値を含むDataFrameを作成
df_with_nan = pd.DataFrame({
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35],
    'City': ['Tokyo', 'Osaka', None]
})

# 欠損値を除去
df_without_nan = df_with_nan.dropna()

このコードの解説

`dropna()`メソッドを用いて、DataFrame内の欠損値(NaN)を除去しています。

例2:特定の列でソート

# Ageでソート
sorted_data = df.sort_values('Age')

このコードの解説

`sort_values()`メソッドを使って、特定の列(この場合は`Age`)でソートを行っています。

まとめ

pandasは非常に多機能なライブラリであり、データのフィルタリングと選択も容易です。基本的な操作から応用例まで、多くの機能が網羅されていますので、是非とも活用してください。

コメント

コメントする

目次