この記事では、Pythonのデータ分析ライブラリであるpandasを用いてJSONデータを効率よく操作するテクニックについて詳しく解説します。具体的なコード例とその解説、応用例を含めています。
目次
pandasとJSONデータの基本
pandasは、データ分析を行うための強力なPythonライブラリであり、JSON形式のデータも簡単に取り扱うことができます。JSON(JavaScript Object Notation)は、データを構造化するための軽量なフォーマットです。
JSONデータの読み込み
まずは基本的なJSONデータの読み込みから始めましょう。
import pandas as pd
# JSONデータを読み込む
df = pd.read_json("data.json")
print(df.head())
このコードは”data.json”という名前のJSONファイルを読み込み、その内容をデータフレームに変換しています。
JSONデータの書き出し
JSONデータの書き出しも非常に簡単です。
# JSON形式でファイルに保存
df.to_json("output.json")
データの操作とフィルタリング
JSONデータが読み込めたら、次はそのデータを操作する方法について見ていきましょう。
特定の列を選択する
# 'age'列を選択
selected_data = df['age']
print(selected_data)
条件に一致するデータをフィルタリング
pandasを使って、特定の条件に一致するデータをフィルタリングする方法もあります。
# 'age'が30以上のデータをフィルタリング
filtered_data = df[df['age'] >= 30]
print(filtered_data)
応用例
基本的な操作がわかったところで、いくつかの応用例を考えてみましょう。
応用例1: ネストされたJSONデータの操作
# ネストされたJSONデータを展開する
df_flatten = pd.json_normalize(data, sep='_')
print(df_flatten)
ネストされたJSONデータも`pd.json_normalize`関数を使用することで平坦化(フラット化)が可能です。
応用例2: JSONデータの可視化
import matplotlib.pyplot as plt
# 'age'の分布を可視化
df['age'].hist()
plt.show()
データの可視化にはmatplotlibを用います。ここでは、’age’列の分布をヒストグラムで表示しています。
まとめ
この記事では、pandasを用いてJSONデータの読み込みから操作、そして応用例までを解説しました。これらのテクニックを使って、JSONデータの操作を効率よく行いましょう。
コメント