Pythonのpandasにおける欠損値（nan, None, pd.NA）の理解と活用方法

欠損値（nan, None, pd.NA）を使いこなすために、Pythonのpandasでの基本的な理解と実践的な活用方法を解説します。

Pythonのpandasで欠損値を扱う方法について教えてください。

もちろんです！pandasでの欠損値（nan, None, pd.NA）の扱い方と活用方法について詳しく解説しましょう。

欠損値とは

欠損値とは、データセットやデータフレームの中で一部の値が欠けている状態を指します。

欠損値は様々な要因によって発生することがあります。

例えば、センサーの故障、データの入力ミス、データの欠落などが挙げられます。欠損値はデータの完全性と品質を損なう可能性があるため、正確なデータ分析や予測モデルの構築において重要な要素です。

欠損値の種類

欠損値は、以下のような種類に分類されます。

NaN (Not a Number)

NaNは「数値ではない」という意味で、欠損値を表すために広く使われています。浮動小数点数や整数のデータ型において、不明な値や計算不可能な値が存在する場合にNaNが代入されます。

None

NoneはPythonの特殊なオブジェクトであり、欠損値を表すために使用されます。主にオブジェクト型のデータで利用されます。Noneは値の欠如や不明な状態を示すために使われます。

pd.NA

pd.NAはpandasライブラリにおいて導入された特別な欠損値オブジェクトです。pd.NAはpandasのNullable型とともに使用され、整数やブール型の列においても欠損値を明示的に表現するために使用されます。

欠損値の種類によって扱い方や処理方法が異なる場合があります。正確なデータ分析や処理を行うために、それぞれの種類について理解しておく必要があります。

欠損値の処理方法

欠損値を適切に扱うためには、処理方法を知ることが重要です。この章では、欠損値の削除と補完という二つの基本的な処理方法について解説します。

欠損値の削除

欠損値を含む行や列を削除する方法は、データセットが大きくない場合や欠損値の数が少ない場合に有効です。削除することで、欠損値の影響を受けずにデータを分析することができます。

pandasでは、dropna()メソッドを使用して欠損値を含む行や列を簡単に削除することができます。

欠損値の補完

欠損値を補完する方法は、データセットの完全性を保ちながら欠損値を埋めるために使用されます。補完方法はデータの性質やコンテキストに応じて選択されるべきです。一般的な補完方法には以下のようなものがあります。

平均値による補完:
- 欠損値を含む特定の列の平均値を計算し、その平均値で欠損値を補完します。数値データに適用されることが多く、データの分布に大きな偏りがない場合に有効です。
中央値による補完:
- 欠損値を含む特定の列の中央値を計算し、その中央値で欠損値を補完します。外れ値の影響を受けにくく、数値データにおいてデータの偏りがある場合に適しています。
最頻値による補完:
- 欠損値を含む特定の列の最頻値（最も頻繁に現れる値）を計算し、その最頻値で欠損値を補完します。カテゴリカルデータや質的データに適用されることが多いです。

pandasでは、fillna()メソッドを使用して欠損値を特定の値で補完することができます。補完方法はデータの特性や目的に応じて適切なものを選択しましょう。

欠損値の処理方法はデータの信頼性や分析結果に大きな影響を与えるため、慎重に選択する必要があります。また、欠損値の処理はデータの前処理段階で行われることが多いため、データ分析の前に適切な欠損値の処理を行うことが重要です。

欠損値の扱いにおける注意点

欠損値の扱いにはいくつかの注意点があります。以下にそれらを説明します。

データのバイアス:
- 欠損値を単純に削除したり、平均値や中央値で補完すると、データのバイアスが生じる可能性があります。特に、欠損値が特定の条件や属性に関連している場合、欠損値を無視することでデータの特性が歪んでしまうことがあります。注意深くデータを分析し、バイアスの影響を評価する必要があります。
欠損値のパターン:
- データセットによっては、欠損値が特定のパターンで存在することがあります。例えば、特定の時間帯や特定の地域のデータに欠損値が集中している場合があります。このようなパターンを把握することで、データの解釈や補完方法の選択に役立ちます。
欠損値の割合:
- 欠損値の割合が高い場合、削除や補完によるデータの改変が大きくなります。欠損値が多い列や行を削除すると、有用な情報が失われる可能性があります。また、補完による値の推測も精度が低くなる可能性があります。欠損値の割合を考慮し、適切な判断を行う必要があります。
ドメイン知識の活用:
- 欠損値の処理においては、特定のドメインや業界の知識を活用することが重要です。データの背景や特性に精通していることで、適切な補完方法や欠損値の影響を正しく評価することができます。ドメイン専門家との協力や相談も有効です。

欠損値の処理はデータ分析の重要なステップですが、注意を払いながら適切な方法を選択することが求められます。データの特性や目的に応じて、バイアスを避けつつデータの完全性を保つような処理を行うことが重要です。

サンプルプログラムによる実践的な解説

実際のデータセットを用いたサンプルプログラムを通じて、欠損値の処理方法を具体的に解説します。

この章では、コードを使って欠損値の削除や補完がどのように行われるかを実践的に学びます。

import pandas as pd

# サンプルデータの作成
data = {'名前': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
        '年齢': [25, 32, None, 40, 28],
        '性別': ['女性', '男性', '男性', None, '女性'],
        '収入': [50000, None, 70000, 60000, 45000]}
df = pd.DataFrame(data)

# 欠損値の確認
print("欠損値の数:")
print(df.isnull().sum())

# 欠損値の削除
df_dropped = df.dropna()
print("\n欠損値の削除後のデータ:")
print(df_dropped)

# 欠損値の補完（平均値）
df_filled_mean = df.fillna(df.mean())
print("\n欠損値の補完（平均値）後のデータ:")
print(df_filled_mean)

# 欠損値の補完（最頻値）
df_filled_mode = df.fillna(df.mode().iloc[0])
print("\n欠損値の補完（最頻値）後のデータ:")
print(df_filled_mode)

このサンプルプログラムでは、pandasライブラリを使用して欠損値の処理を行います。まず、作成したサンプルデータセットにおける欠損値の数を確認します。

次に、dropna()メソッドを使用して欠損値を含む行を削除した結果を表示します。欠損値を含む行が削除され、欠損値のないデータが得られます。

さらに、fillna()メソッドを使用して欠損値を補完します。サンプルプログラムでは、平均値や最頻値での補完方法を示しています。fillna(df.mean())は欠損値を各列の平均値で補完し、fillna(df.mode().iloc[0])は欠損値を各列の最頻値で補完します。

実際にプログラムを実行することで、欠損値の削除と補完がどのように行われるかを確認できます。

欠損値の数:
名前    0
年齢    1
性別    1
収入    1

欠損値の削除後のデータ:
      名前    年齢  性別       収入
0  Alice  25.0  女性  50000.0
4    Eve  28.0  女性  45000.0

欠損値の補完（平均値）後のデータ:
        名前     年齢    性別       収入
0    Alice  25.00    女性  50000.0
1      Bob  32.00    男性  56250.0
2  Charlie  31.25    男性  70000.0
3     Dave  40.00  None  60000.0
4      Eve  28.00    女性  45000.0

欠損値の補完（最頻値）後のデータ:
        名前    年齢  性別       収入
0    Alice  25.0  女性  50000.0
1      Bob  32.0  男性  45000.0
2  Charlie  25.0  男性  70000.0
3     Dave  40.0  女性  60000.0
4      Eve  28.0  女性  45000.0

データセットに応じて適切な処理方法を選択し、欠損値の処理を行いましょう。

リスキリングでキャリアアップしてみませんか？

リスキリング(学び直し)は、経済産業省が推奨しており、

今だけ、最大７０％のキャッシュバックを受けることができます。