Pythonでpandasを使ってJSONデータを効率よく操作するテクニック

この記事では、Pythonのデータ分析ライブラリであるpandasを用いてJSONデータを効率よく操作するテクニックについて詳しく解説します。具体的なコード例とその解説、応用例を含めています。

pandasとJSONデータの基本

pandasは、データ分析を行うための強力なPythonライブラリであり、JSON形式のデータも簡単に取り扱うことができます。JSON（JavaScript Object Notation）は、データを構造化するための軽量なフォーマットです。

まずは基本的なJSONデータの読み込みから始めましょう。

import pandas as pd

# JSONデータを読み込む
df = pd.read_json("data.json")
print(df.head())

このコードは”data.json”という名前のJSONファイルを読み込み、その内容をデータフレームに変換しています。

JSONデータの書き出しも非常に簡単です。

# JSON形式でファイルに保存
df.to_json("output.json")

JSONデータが読み込めたら、次はそのデータを操作する方法について見ていきましょう。

# 'age'列を選択
selected_data = df['age']
print(selected_data)

pandasを使って、特定の条件に一致するデータをフィルタリングする方法もあります。

# 'age'が30以上のデータをフィルタリング
filtered_data = df[df['age'] >= 30]
print(filtered_data)

基本的な操作がわかったところで、いくつかの応用例を考えてみましょう。

# ネストされたJSONデータを展開する
df_flatten = pd.json_normalize(data, sep='_')
print(df_flatten)

ネストされたJSONデータも`pd.json_normalize`関数を使用することで平坦化（フラット化）が可能です。

import matplotlib.pyplot as plt

# 'age'の分布を可視化
df['age'].hist()
plt.show()

データの可視化にはmatplotlibを用います。ここでは、’age’列の分布をヒストグラムで表示しています。

この記事では、pandasを用いてJSONデータの読み込みから操作、そして応用例までを解説しました。これらのテクニックを使って、JSONデータの操作を効率よく行いましょう。