Python　pandasを活用してクロス集計を効率化する方法：crosstab関数の使い方（出現回数・頻度を算出）

Pythonのpandasライブラリのcrosstab関数を用いて、カテゴリ毎の出現回数・頻度を素早く計算する手法を詳細に解説します。

pandasのcrosstab関数ってどういうことができますか？

pandasのcrosstab関数は、データセット内のカテゴリ別の出現回数や頻度を簡単に計算することができますよ。

crosstab関数について

pandasのcrosstab関数は、2つ以上のカテゴリデータ間のクロス集計表（分割表）を作成するための関数です。クロス集計は、2つ以上のカテゴリデータの組み合わせによる頻度、出現回数、割合などを計算するために使われます。

この関数は、以下のような基本的な形式で使います：

pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name: str = 'All', dropna: True, normalize=False)

各引数の説明は以下のとおりです：

index: クロス集計表の行となるデータを指定します。
columns: クロス集計表の列となるデータを指定します。
values: クロス集計表のセルに表示する値を計算するために使用します。省略した場合、クロス集計表は各セルでindexとcolumnsの組み合わせの頻度を示します。
rownamesとcolnames: クロス集計表の行名と列名を指定します。省略した場合、pandasは入力データから自動的に名前を決定します。
aggfunc: values引数が提供された場合、この引数で集約関数を指定します。たとえば、np.sumやnp.meanなどです。
margins: Trueに設定すると、行と列の合計が追加されます。
margins_name: margins=Trueの場合に、合計の行と列の名前を指定します。デフォルトは’All’です。
dropna: Trueに設定すると、分析からNaN値が除外されます。
normalize: Trueに設定すると、クロス集計表の値が全体の頻度、行の頻度、または列の頻度によって正規化されます。

サンプルデータを用いて実際の使い方を見てみましょう：

import pandas as pd

# サンプルデータの作成
data = {'A': ['cat', 'dog', 'cat', 'cat', 'dog', 'cat'],
        'B': ['one', 'one', 'two', 'three', 'two', 'one'],
        'C': [1, 2, 3, 4, 5, 6]}

df = pd.DataFrame(data)

# crosstab関数の利用
pd.crosstab(df['A'], df['B'])

このコードはAとBのカテゴリの組み合わせの頻度を表すクロス集計表を生成します。crosstab関数を使用することで、以下のようなクロス集計表が出力されます。

	one	two	three
cat	2	1	1
dog	1	1	0

これはAというカテゴリで’cat’と’dog’、Bというカテゴリで’one’、’two’、’three’の出現回数を表しています。たとえば、’cat’と’one’の組み合わせは2回、’dog’と’three’の組み合わせは0回出現しています。

さらにcrosstab関数では、valuesとaggfuncを利用して、特定の関数（平均値や合計値など）を適用した結果を得ることもできます。

# crosstab関数の利用（aggfuncとvaluesを利用）
pd.crosstab(df['A'], df['B'], values=df['C'], aggfunc='sum')

このコードはAとBのカテゴリの組み合わせごとに、Cの合計値を算出します。このように、crosstab関数はカテゴリデータのクロス集計だけでなく、値の集約にも利用できます。

crosstab関数の活用法

crosstab関数は非常に柔軟で、多様な分析に適用することが可能です。

以下に、より高度な活用法について、サンプルプログラムと共に解説します。

行・列合計の追加
- margins=Trueを指定することで、行と列の合計をクロス集計表に追加することができます。

pd.crosstab(df['A'], df['B'], margins=True)

これにより、各行・列の合計値が追加されます。

正規化
- normalize=Trueを指定することで、クロス集計表の値を全体の頻度、行の頻度、または列の頻度によって正規化できます。

pd.crosstab(df['A'], df['B'], normalize=True)

これにより、各セルの値が全体の頻度によって正規化されます。

複数のカテゴリに対するクロス集計
- indexやcolumnsにリストを指定することで、複数のカテゴリに対するクロス集計を行うことができます。

pd.crosstab([df['A'], df['B']], df['C'])

これにより、AとBの組み合わせに対するCの頻度を計算します。

以上が、pandasのcrosstab関数の一部の活用法となります。データの特性や解析目的に応じて、適切なオプションを選択して利用しましょう。

pandasのcrosstab関数を用いたクロス集計：表解説

まず、以下のコードでクロス集計表を作成します。

import pandas as pd

# サンプルデータの作成
data = {'Animal': ['cat', 'dog', 'cat', 'cat', 'dog', 'cat'],
        'Food': ['fish', 'bone', 'fish', 'fish', 'bone', 'fish'],
        'Quantity': [1, 2, 3, 1, 2, 1]}

df = pd.DataFrame(data)

# crosstab関数の利用
ct = pd.crosstab(df['Animal'], df['Food'], values=df['Quantity'], aggfunc='sum')
print(ct)

このコードは、AnimalとFoodのカテゴリの組み合わせごとに、Quantityの合計値を算出します。以下のようなクロス集計表が出力されます。