Pythonでデータフレームを使ったデータ可視化の実践手法

Pythonのデータフレームを使って、データを効率的に可視化する方法を詳しく解説します。この記事では基本的なプロットから、応用的な可視化テクニックまで、具体的なコード例とその解説、応用例を含めています。

目次

データフレームとは

データフレームは、Pythonのデータ解析ライブラリであるpandasに含まれる2次元のデータ構造です。Excelのスプレッドシートのように、行と列でデータを整理できるため、データ解析に非常に便利です。

基本的なデータフレームの作成

以下は、基本的なデータフレームの作成方法です。

import pandas as pd

# データフレームを作成
df = pd.DataFrame({
  '名前': ['田中', '佐藤', '鈴木'],
  '年齢': [28, 34, 29],
  '職業': ['エンジニア', 'デザイナー', 'マネージャー']
})

print(df)

基本的なデータの可視化

Pythonでは、matplotlibやseabornといったライブラリを用いてデータフレームの内容を可視化できます。

matplotlibを用いた基本的なプロット

以下は、matplotlibを用いてデータフレームの内容を基本的なプロットで可視化する方法です。

import matplotlib.pyplot as plt

# プロットを作成
plt.bar(df['名前'], df['年齢'])
plt.xlabel('名前')
plt.ylabel('年齢')
plt.title('年齢別プロット')
plt.show()

seabornを用いた高度なプロット

seabornを使うと、より高度なプロットが可能です。以下はその一例です。

import seaborn as sns

# 高度なプロットを作成
sns.boxplot(x='職業', y='年齢', data=df)
plt.title('職業別年齢分布')
plt.show()

応用例

応用例1: 複数のデータフレームを結合して可視化

二つのデータフレームを結合し、新しい可視化を行う方法を見てみましょう。

# 別のデータフレームを作成
df2 = pd.DataFrame({
  '名前': ['田中', '佐藤', '鈴木'],
  '性別': ['男', '女', '男']
})

# データフレームを結合
merged_df = pd.merge(df, df2, on='名前')

# 可視化
sns.barplot(x='名前', y='年齢', hue='性別', data=merged_df)
plt.title('性別別年齢分布')
plt.show()

応用例2: データフレームに条件を適用して可視化

データフレームから条件に合うデータだけを抽出して可視化します。

# 条件を適用
filtered_df = df[df['年齢'] > 30]

# 可視化
plt.bar(filtered_df['名前'], filtered_df['年齢'])
plt.xlabel('名前')
plt.ylabel('年齢')
plt.title('30歳以上の年齢別プロット')
plt.show()

まとめ

Pythonのデータフレームを使用することで、データの可視化が非常に効率的に行えます。基本的なプロットから高度な可視化まで、多くの可能性があります。応用例を参考に、自分自身のデータ解析に活かしてみてください。

コメント

コメントする

目次