Pythonでpandasを使ってJSONデータを効率よく操作するテクニック

この記事では、Pythonのデータ分析ライブラリであるpandasを用いてJSONデータを効率よく操作するテクニックについて詳しく解説します。具体的なコード例とその解説、応用例を含めています。

目次

pandasとJSONデータの基本

pandasは、データ分析を行うための強力なPythonライブラリであり、JSON形式のデータも簡単に取り扱うことができます。JSON(JavaScript Object Notation)は、データを構造化するための軽量なフォーマットです。

JSONデータの読み込み

まずは基本的なJSONデータの読み込みから始めましょう。

import pandas as pd

# JSONデータを読み込む
df = pd.read_json("data.json")
print(df.head())

このコードは”data.json”という名前のJSONファイルを読み込み、その内容をデータフレームに変換しています。

JSONデータの書き出し

JSONデータの書き出しも非常に簡単です。

# JSON形式でファイルに保存
df.to_json("output.json")

データの操作とフィルタリング

JSONデータが読み込めたら、次はそのデータを操作する方法について見ていきましょう。

特定の列を選択する

# 'age'列を選択
selected_data = df['age']
print(selected_data)

条件に一致するデータをフィルタリング

pandasを使って、特定の条件に一致するデータをフィルタリングする方法もあります。

# 'age'が30以上のデータをフィルタリング
filtered_data = df[df['age'] >= 30]
print(filtered_data)

応用例

基本的な操作がわかったところで、いくつかの応用例を考えてみましょう。

応用例1: ネストされたJSONデータの操作

# ネストされたJSONデータを展開する
df_flatten = pd.json_normalize(data, sep='_')
print(df_flatten)

ネストされたJSONデータも`pd.json_normalize`関数を使用することで平坦化(フラット化)が可能です。

応用例2: JSONデータの可視化

import matplotlib.pyplot as plt

# 'age'の分布を可視化
df['age'].hist()
plt.show()

データの可視化にはmatplotlibを用います。ここでは、’age’列の分布をヒストグラムで表示しています。

まとめ

この記事では、pandasを用いてJSONデータの読み込みから操作、そして応用例までを解説しました。これらのテクニックを使って、JSONデータの操作を効率よく行いましょう。

コメント

コメントする

目次