この記事ではPythonのPandasの基本的な使い方を学ぶことで、データ分析に役立てることができる基礎を身につけることができます。
Pythonでデータ分析をする場合にPandasを使うことが多いと聞いたけど、具体的にどんなことができるのでしょうか?
PandasはPythonのデータ分析ライブラリの中でも重要な位置を占めています。データフレームやSeriesの作成、データの読み込み、選択、フィルタリング、結合、グループ化、可視化など、様々なデータ操作を行うことができます。
データフレームとSeriesの作成
Pandasを使用すると、データフレームとSeriesを作成することができます。データフレームは、テーブルのような形式でデータを格納し、Seriesは1次元の配列のような形式でデータを格納します。
以下は、データフレームとSeriesを作成する例です。
import pandas as pd
# データフレームを作成する
df = pd.DataFrame({'名前': ['太郎', '花子', '次郎'], '年齢': [25, 20, 30]})
# Seriesを作成する
s = pd.Series([100, 200, 300])
# データフレームを表示する
print(df)
# Seriesを表示する
print(s)
このコードは、データフレームdf
を作成して、それを表示し、またSeriess
を作成して、それを表示します。
データの読み込み
Pandasは、CSV、Excel、SQL、JSON、HTMLなど、多くの形式のデータを読み込むことができます。以下は、CSVファイルを読み込む例です。
import pandas as pd
# CSVファイルを読み込む
df = pd.read_csv('data.csv')
# データフレームを表示する
print(df)
このコードは、data.csv
ファイルを読み込んで、それをデータフレームdf
に格納して、それを表示します。
データの選択
Pandasを使用すると、データフレームから特定の列や行を選択することができます。
以下は、データフレームから特定の列や行を選択する例です。
import pandas as pd
# データを定義する
data = {'名前': ['太郎', '花子', '次郎'],
'年齢': [25, 20, 30],
'性別': ['男性', '女性', '男性']}
# データフレームを作成する
df = pd.DataFrame(data)
# '名前'列を選択する
names = df['名前']
print(names)
# 2行目を選択する
row = df.loc[1]
print(row)
このコードは、'名前'
列を選択して、それを表示し、loc[]
を使用して2行目を選択し、それを表示します。
データのフィルタリング
特定の条件に合致する行をフィルタリングすることもできます。
データフレームから特定の条件に合致する行をフィルタリングする例を以下に示します。
import pandas as pd
# データを定義する
data = {'名前': ['太郎', '花子', '次郎'],
'年齢': [25, 20, 30],
'性別': ['男性', '女性', '男性']}
# データフレームを作成する
df = pd.DataFrame(data)
# 年齢が25歳以上の行を選択する
filtered = df[df['年齢'] >= 25]
# フィルタリングされたデータフレームを表示する
print(filtered)
このコードは、'年齢'
列が25歳以上の行を選択して、それをfiltered
に格納し、それを表示します。
データの結合とグループ化
Pandasを使用すると、データフレームを結合してより大きなデータセットを作成することができます。また、データフレームをグループ化して、特定の条件に基づいてデータを集計することができます。
以下は、データフレームを結合し、グループ化する例です。
import pandas as pd
# データを定義する
data1 = {'名前': ['太郎', '花子', '次郎'],
'年齢': [25, 20, 30]}
data2 = {'名前': ['太郎', '花子', '三郎'],
'性別': ['男性', '女性', '男性']}
# データフレームを作成する
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
# 名前をキーにして結合する
merged = pd.merge(df1, df2, on='名前')
# 性別ごとに年齢の平均値を計算する
grouped = merged.groupby('性別')['年齢'].mean()
# グループ化されたデータを表示する
print(grouped)
このコードは、'名前'
列をキーにしてdf1
とdf2
を結合し、性別ごとに年齢の平均値を計算して、それを表示します。
データの可視化
Pandasは、Matplotlibをベースとした可視化機能を提供しています。
以下は、棒グラフを作成する例です。
import pandas as pd
import matplotlib.pyplot as plt
# データを定義する
data = {'年度': ['2020', '2021', '2022', '2023'],
'売上': [1000, 2000, 3000, 4000]}
# データフレームを作成する
df = pd.DataFrame(data)
# 棒グラフを作成する
df.plot
このコードは、df
による棒グラフを作成して、それを表示します。
Pandasの可視化機能には、他にも散布図、折れ線グラフ、ヒストグラム、箱ひげ図などがあります。これらのグラフを使用することで、データの傾向やパターンを視覚的に理解することができます。
まとめ
PythonのPandasの基本的な使い方を解説しました。
- PandasはPythonのデータ分析ライブラリであり、データフレームやSeriesの作成、データの読み込み、選択、フィルタリング、結合、グループ化、可視化など、様々なデータ操作を行うことができる。
- Pandasを使ってデータ操作の基礎を学ぶことで、より高度な分析に取り組むための基礎を身につけることができます。
Pandasを使ってデータ分析をするための基本的な使い方を学ぶことができました!特に、データのフィルタリングや結合、グループ化、可視化などの機能は、データ分析にとても役立ちそうだと感じました。
Pandasを使ってデータ分析をする場合には、基本的な使い方をしっかりと身につけることが重要です。Pythonのデータ分析においてPandasは必須のスキルになりますのでしっかり使いこなせるようになりましょう。
コメント