この記事では、PythonのライブラリPandasを用いて、データフレームに対する基本的な統計処理の方法について解説します。具体的なコード例とその詳細な解説、さらには応用例を2つ含めています。
目次
はじめに
統計処理はデータ解析の根幹をなす部分であり、PythonのPandasライブラリを用いることで、手軽かつ高度な分析が可能です。この記事では、データフレームの基本的な統計処理を網羅的に説明します。
データフレームとは
データフレームは、テーブル形式のデータを格納・操作するためのデータ構造です。Pandasライブラリによって提供され、Excelのようなスプレッドシートと非常に似た概念です。
データフレームの作成
Pandasを使ってデータフレームを作成する基本的なコードは以下の通りです。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'Occupation': ['Engineer', 'Doctor', 'Lawyer']
})
基本的な統計処理
平均値の計算
平均値を計算するには、`mean()`メソッドを使用します。
# 平均値の計算
average_age = df['Age'].mean()
print(average_age) # Output: 30.0
中央値の計算
中央値を計算するには、`median()`メソッドを使用します。
# 中央値の計算
median_age = df['Age'].median()
print(median_age) # Output: 30.0
標準偏差の計算
標準偏差を計算するには、`std()`メソッドを使用します。
# 標準偏差の計算
std_age = df['Age'].std()
print(std_age) # Output: 5.0
応用例
グループごとの統計
グループごとに統計処理を行う場合は、`groupby`メソッドを使います。
# 職業ごとに年齢の平均を求める
grouped = df.groupby('Occupation')['Age'].mean()
print(grouped)
# Output:
# Occupation
# Doctor 30
# Engineer 25
# Lawyer 35
データフレームのフィルタリング
特定の条件に一致するデータだけを取り出す場合は、ブールインデックスを使用します。
# 年齢が30以上のデータを取り出す
filtered_df = df[df['Age'] >= 30]
print(filtered_df)
# Output:
# Name Age Occupation
# 1 Bob 30 Doctor
# 2 Charlie 35 Lawyer
まとめ
この記事では、PythonのPandasライブラリを使用して、データフレームにおける基本的な統計処理の方法を解説しました。平均値、中央値、標準偏差などの基本的な統計量の計算から、グループごとの統計やデータフレームのフィルタリングまで、多岐にわたる内容を網羅しました。この知識を活用して、より高度なデータ分析を行ってください。
コメント