平均、中央値、最頻値の法則とその完全な解説
統計学における基本的な三つの指標、すなわち平均、中央値、そして最頻値は、データセットの中心的傾向を理解するために非常に重要な役割を果たします。これらの指標はそれぞれ異なる方法でデータを要約し、異なる状況で有用な情報を提供します。この記事では、これら三つの指標の定義と計算方法、使用例、そしてそれぞれの特徴について詳しく説明します。

1. 平均(平均値)
定義と計算方法
平均とは、データセットにおける値の「中心」を示す指標です。すべてのデータの合計をデータの個数で割ることによって求めることができます。数式で表すと、以下のようになります:
平均=nx1+x2+⋯+xn
ここで、x1,x2,…,xn はデータセットの各値、n はデータの個数です。
使用例
例えば、データセットが「5, 8, 10, 12, 15」の場合、平均は次のように計算されます:
平均=55+8+10+12+15=550=10
このように、平均はすべてのデータを均等に扱うため、外れ値(非常に小さいまたは非常に大きい値)に敏感です。例えば、データセットに非常に大きな値や小さな値が含まれている場合、それが平均を大きく歪めることがあります。
特徴と注意点
平均はデータセット全体を代表する「中央の値」として有用ですが、外れ値に対して敏感です。例えば、1000という値がデータセットに含まれている場合、それが平均に大きな影響を与えることになります。したがって、平均を使用する際には、データの分布や外れ値の影響を考慮する必要があります。
2. 中央値
定義と計算方法
中央値は、データを順番に並べたときに中央に位置する値を指します。中央値は、データが奇数個の場合は中央の一つの値であり、偶数個の場合は中央の二つの値の平均を取ります。数式で表すと、データを昇順または降順に並べたとき、次のように計算されます:
-
データの個数が奇数の場合:中央値は中央の値
-
データの個数が偶数の場合:中央値は中央の二つの値の平均
使用例
例えば、データセットが「5, 8, 10, 12, 15」の場合、中央の値は「10」であるため、中央値は10です。
一方、データセットが「5, 8, 10, 12」の場合、偶数個のデータなので、中央値は「(8 + 10) / 2 = 9」となります。
特徴と注意点
中央値の大きな特徴は、外れ値に対して頑健(強い)ことです。たとえば、データセットに1000という極端な値が含まれていても、中央値にはほとんど影響を与えません。これにより、中央値は外れ値に強く影響されることなく、データの中心を表現するのに非常に有用です。
中央値は特に、住宅価格や所得のようなデータにおいて外れ値が影響を及ぼす場面でよく使用されます。
3. 最頻値(モード)
定義と計算方法
最頻値は、データセット内で最も頻繁に出現する値を指します。データが何度も繰り返し現れる場合、その値が最頻値となります。最頻値は、必ずしも一つだけである必要はなく、複数の最頻値が存在する場合もあります(このようなデータセットは「多峰性」と呼ばれます)。
使用例
例えば、データセットが「2, 3, 4, 4, 5, 5, 5, 6, 7」の場合、「5」が最も頻繁に出現しているため、最頻値は5です。
もしデータセットが「2, 2, 3, 3, 4, 4, 5, 5」のように二つの値が同じ回数で最も多く出現した場合、最頻値は「2」と「3」の二つです。
特徴と注意点
最頻値は、データの中でどの値が最もよく現れるかを示す指標であり、カテゴリカルデータや離散的なデータに特に有用です。たとえば、アンケート調査や製品の人気度の調査などで最頻値を使うことがよくあります。
しかし、最頻値はデータの全体的な分布を反映しないことがあるため、注意が必要です。データセットに複数の最頻値が存在する場合(例えば、最頻値が二つ以上ある場合)、解釈が難しくなることがあります。
4. 平均、中央値、最頻値の使い分け
これらの三つの指標は、データの性質や分析の目的に応じて使い分ける必要があります。以下は、それぞれの指標を使う場面です:
-
平均は、データの中心的な傾向を把握するために最も一般的に使用されますが、外れ値が影響を与える可能性がある場合は注意が必要です。
-
中央値は、外れ値の影響を排除したい場合に有効です。特に、分布に偏りがある場合に適しています。
-
最頻値は、カテゴリカルデータや特定の値の頻度が重要な場合に有用です。例えば、製品の選択肢や特定のアンケート結果において、どの選択肢が最も人気があるかを知りたいときに使用します。
まとめ
平均、中央値、最頻値は、データを分析する際に中心的傾向を理解するために欠かせない指標です。平均はデータ全体のバランスを取りますが、外れ値の影響を受けやすいです。中央値は外れ値に強く、データが偏っている場合に適しています。最頻値は、データ内で最も頻繁に現れる値を示し、カテゴリカルデータの分析に役立ちます。これらの指標をうまく使い分けることによって、データの特徴をより深く理解し、適切な意思決定を行うことができます。