この記事では、Pythonでよく使用されるデータ操作ライブラリ、pandasの「データフレーム」に焦点を当て、その基本的な操作方法と使い方について解説します。具体的なコード例とその詳細な解説、さらに応用例を2つ紹介することで、データフレームの力を最大限に引き出す方法を学びます。
目次
データフレームとは
データフレーム(DataFrame)は、Pythonのデータ操作ライブラリであるpandasにおいて、2次元の表形式のデータを効率よく扱うためのデータ構造です。Excelのように行と列があり、さまざまなデータ型を混在させることができます。
データフレームの基本的な作成方法
データフレームは、辞書型データをpandasのDataFrame関数に渡すことで作成できます。
import pandas as pd
# 辞書型データを用意
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 45, 35],
'City': ['Tokyo', 'New York', 'London']}
# データフレームの作成
df = pd.DataFrame(data)
このコードは、Name、Age、Cityという3つの列を持つデータフレームを作成します。
基本的なデータ操作
データフレームには多くの操作が可能ですが、ここではよく使われる「データの抽出」「データの追加」「データの削除」について詳しく見ていきましょう。
データの抽出
特定の列や行を抽出する方法はいくつかあります。
# 特定の列を抽出
df_name = df['Name']
# 複数列を抽出
df_multi = df[['Name', 'Age']]
データの追加
新しい列を追加するには、以下のようにします。
# 新しい列の追加
df['Salary'] = [50000, 60000, 70000]
データの削除
特定の列を削除するには、`drop`メソッドを使用します。
# 'City'列を削除
df.drop('City', axis=1, inplace=True)
応用例
CSVファイルの読み書き
データフレームはCSVファイルとも簡単にやり取りできます。
# CSVファイルの読み込み
df_from_csv = pd.read_csv('data.csv')
# CSVファイルへの書き込み
df.to_csv('new_data.csv')
データのフィルタリング
特定の条件を満たすデータのみを抽出することも可能です。
# 'Age'が40以上のデータを抽出
df_filtered = df[df['Age'] >= 40]
まとめ
データフレームは、データ操作において非常に強力なツールです。基本的な作成方法から、データの抽出、追加、削除、さらにはCSVの読み書きやデータのフィルタリングまで、多くのことが可能です。この記事を通じて、データフレームの基本的な操作とその使い方についての理解が深まったことでしょう。
コメント