Python pandas,Seriesの重複した行を効果的に抽出・削除する方法

この記事では、Pythonのpandasライブラリを使用して、DataFrameやSeriesから効率的に重複した行を抽出・削除する方法について解説します。

DataFrameやSeriesから重複した行をどうやって抽出・削除すればいいのか教えていただけますか？

重複行の抽出にはduplicated()メソッドを使用し、重複行の削除ではdrop_duplicates()メソッドを使用します。

重複行の抽出

重複した行を抽出するために、pandasのduplicated()メソッドを使用します。以下の手順で進めていきましょう。

DataFrameの場合:

duplicated()メソッドをDataFrameオブジェクトに適用します。
デフォルトでは、全ての列の値が重複している行がTrueとしてマークされます。
特定の列に対して重複をチェックしたい場合は、subsetパラメーターを使用して列を指定します。
重複行の抽出結果を新しいDataFrameに代入します。

duplicated_rows = df.duplicated()
duplicated_rows_subset = df.duplicated(subset=['column_name'])
duplicated_df = df[duplicated_rows]

Seriesの場合:

duplicated()メソッドをSeriesオブジェクトに適用します。
デフォルトでは、全ての値が重複している行がTrueとしてマークされます。
重複行の抽出結果を新しいSeriesに代入します。

duplicated_rows = series.duplicated()
duplicated_series = series[duplicated_rows]

重複行の抽出では、特定の列や条件に基づいて重複をチェックすることもできます。

例えば、特定の列の値が重複している行のみを抽出する場合には、subsetパラメーターを使用して列を指定します。また、重複行の抽出結果を利用して追加の処理を行うこともできます。

重複行の削除

重複した行を削除するために、pandasのdrop_duplicates()メソッドを使用します。以下の手順で進めていきましょう。

DataFrameの場合:

drop_duplicates()メソッドをDataFrameオブジェクトに適用します。
デフォルトでは、全ての列の値が重複している行が削除されます。
特定の列に対して重複をチェックしたい場合は、subsetパラメーターを使用して列を指定します。
重複行が削除された新しいDataFrameが返されます。

deduplicated_df = df.drop_duplicates()
deduplicated_df_subset = df.drop_duplicates(subset=['column_name'])

Seriesの場合:

drop_duplicates()メソッドをSeriesオブジェクトに適用します。
デフォルトでは、全ての値が重複している行が削除されます。
重複行が削除された新しいSeriesが返されます。

deduplicated_series = series.drop_duplicates()

重複行の削除では、特定の列や条件に基づいて重複をチェックすることもできます。subsetパラメーターを使用して特定の列を指定すると、その列の値が重複している行が削除されます。

サンプルプログラムを使った解説

以下のサンプルプログラムを使用して、重複行の抽出と削除の手順を具体的に見ていきます。

import pandas as pd

# サンプルのDataFrameを作成
data = {'Name': ['John', 'Alice', 'John', 'Bob', 'Alice'],
        'Age': [25, 28, 25, 30, 28],
        'City': ['Tokyo', 'New York', 'Tokyo', 'London', 'New York']}
df = pd.DataFrame(data)

# 重複行の抽出
duplicated_rows = df.duplicated()
duplicated_df = df[duplicated_rows]
print("重複行の抽出結果:")
print(duplicated_df)

# 重複行の削除
deduplicated_df = df.drop_duplicates()
print("重複行の削除結果:")
print(deduplicated_df)

上記のサンプルプログラムでは、以下の手順で重複行の抽出と削除を行っています。