Pythonでデータフレームを使って基本的な統計処理を行う方法

この記事では、PythonのライブラリPandasを用いて、データフレームに対する基本的な統計処理の方法について解説します。具体的なコード例とその詳細な解説、さらには応用例を2つ含めています。

目次

はじめに

統計処理はデータ解析の根幹をなす部分であり、PythonのPandasライブラリを用いることで、手軽かつ高度な分析が可能です。この記事では、データフレームの基本的な統計処理を網羅的に説明します。

データフレームとは

データフレームは、テーブル形式のデータを格納・操作するためのデータ構造です。Pandasライブラリによって提供され、Excelのようなスプレッドシートと非常に似た概念です。

データフレームの作成

Pandasを使ってデータフレームを作成する基本的なコードは以下の通りです。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Occupation': ['Engineer', 'Doctor', 'Lawyer']
})

基本的な統計処理

平均値の計算

平均値を計算するには、`mean()`メソッドを使用します。

# 平均値の計算
average_age = df['Age'].mean()
print(average_age)  # Output: 30.0

中央値の計算

中央値を計算するには、`median()`メソッドを使用します。

# 中央値の計算
median_age = df['Age'].median()
print(median_age)  # Output: 30.0

標準偏差の計算

標準偏差を計算するには、`std()`メソッドを使用します。

# 標準偏差の計算
std_age = df['Age'].std()
print(std_age)  # Output: 5.0

応用例

グループごとの統計

グループごとに統計処理を行う場合は、`groupby`メソッドを使います。

# 職業ごとに年齢の平均を求める
grouped = df.groupby('Occupation')['Age'].mean()
print(grouped)
# Output:
# Occupation
# Doctor      30
# Engineer    25
# Lawyer      35

データフレームのフィルタリング

特定の条件に一致するデータだけを取り出す場合は、ブールインデックスを使用します。

# 年齢が30以上のデータを取り出す
filtered_df = df[df['Age'] >= 30]
print(filtered_df)
# Output:
#      Name  Age Occupation
# 1     Bob   30     Doctor
# 2  Charlie  35     Lawyer

まとめ

この記事では、PythonのPandasライブラリを使用して、データフレームにおける基本的な統計処理の方法を解説しました。平均値、中央値、標準偏差などの基本的な統計量の計算から、グループごとの統計やデータフレームのフィルタリングまで、多岐にわたる内容を網羅しました。この知識を活用して、より高度なデータ分析を行ってください。

コメント

コメントする

目次