平均(平均値)、中央値、最頻値は、統計学においてデータセットの中心傾向を示す指標です。それぞれの指標は異なる特徴を持ち、データを解析する際に使用されます。この記事では、平均、中央値、最頻値の違いと、それぞれがどのような場面で適用されるかについて詳しく説明します。
1. 平均(平均値)
平均は、最も広く使われる統計指標の一つで、データセットの全体的な傾向を示します。具体的には、データのすべての値を足し合わせ、それをデータの個数で割ることによって求められます。

計算方法
平均値は以下の式で計算できます:
平均=n∑xi
ここで、∑xiはデータセット内のすべての値の合計、nはデータの個数です。
特徴
-
平均はデータの全体的な傾向を示しますが、外れ値(極端に大きな値や小さな値)に敏感です。たとえば、極端に大きな数値がデータセットに含まれている場合、平均値がその影響を強く受けることがあります。
-
平均は、すべてのデータが均等に分布している場合に有効な指標となります。
例
データセット:3, 7, 8, 10, 12
平均値は、(3 + 7 + 8 + 10 + 12) ÷ 5 = 8です。
2. 中央値(メディアン)
中央値は、データセットを昇順または降順に並べたとき、中央に位置する値を指します。データが奇数個の場合は、中央の値がそのまま中央値になります。データが偶数個の場合は、中央の二つの値の平均が中央値となります。
計算方法
-
データセットを昇順または降順に並べます。
-
データの個数が奇数の場合、中央の値が中央値です。
-
データの個数が偶数の場合、中央の二つの値の平均が中央値です。
特徴
-
中央値は外れ値に強いです。極端な値がデータセットに含まれている場合でも、中央値はその影響を受けにくいため、外れ値に左右されることなくデータの中心傾向を示すことができます。
-
中央値は、データが歪んでいる場合や、外れ値がある場合に有効な指標です。
例
データセット:3, 7, 8, 10, 12
中央値は、中央の値である8です。
データセット:3, 7, 8, 10
中央値は、7と8の平均である7.5です。
3. 最頻値(モード)
最頻値は、データセット内で最も頻繁に現れる値です。最頻値は必ずしも1つだけではなく、複数の最頻値が存在する場合もあります。その場合は「複数モード」と呼ばれます。また、最頻値が存在しない場合もあります。
計算方法
-
データセット内で最も頻繁に現れる値を見つけます。
特徴
-
最頻値は、データの分布において最も多く現れる値を示すため、データの「人気」や「傾向」を表す指標として利用されます。
-
最頻値は、カテゴリカルデータや順序尺度のデータに特に有用です。
例
データセット:3, 7, 7, 8, 10, 12
最頻値は7です。7が最も頻繁に現れるためです。
4. 平均、中央値、最頻値の使い分け
平均、中央値、最頻値は、それぞれ異なる状況に適した指標です。どの指標を使用するかは、データの性質や分析の目的によって決まります。
平均の使用場面
-
データが正規分布に近い場合や外れ値がない場合、平均を使用することが適切です。
-
例えば、身長や体重など、比較的均等に分布するデータに対しては平均が有効です。
中央値の使用場面
-
外れ値が存在する場合やデータが偏っている場合、中央値が有効です。
-
収入や不動産価格など、極端に高い値や低い値が含まれる場合は中央値が適切です。
最頻値の使用場面
-
カテゴリカルデータ(例えば、色やブランド名など)に対しては、最頻値が有効です。
-
また、モードはデータの「人気」を示すため、最も多く選ばれた選択肢を知りたい場合に使用されます。
5. 各指標の比較
平均、中央値、最頻値は、データセットの中心傾向を示すために使われますが、外れ値や分布の特性によって適切な指標が異なります。例えば、外れ値がある場合には中央値が適切ですが、外れ値の影響を受けにくい指標を求める場合には中央値を選びます。一方で、データが均等に分布している場合には平均が有効であり、最頻値はカテゴリカルデータに特に有効です。
まとめ
-
平均は、データの全体的な傾向を反映しますが、外れ値に影響されやすいです。
-
中央値は、外れ値に強く、データの中心位置を示すのに適しています。
-
最頻値は、データで最も頻繁に現れる値を示し、カテゴリカルデータや特定の傾向を示すのに適しています。
これらの指標はそれぞれ独自の利点と特徴を持っており、データの性質や解析の目的に応じて適切な指標を選択することが重要です。