統計における代表値:最頻値、中央値、算術平均、範囲の完全ガイド
統計学において、データ集合の特徴を簡潔に表現するためには、代表値と呼ばれる値を用いることが不可欠である。代表値には様々な種類があり、それぞれ異なる側面からデータを要約する。この記事では、最頻値(モード)、中央値(メディアン)、算術平均(平均値、アリスメティックミーン)、および**範囲(レンジ)**という代表的な統計量について、理論的な解説とともに多くの具体的な例題を交えて、完全かつ包括的に解説する。
最頻値(モード)
定義
最頻値とは、データの中で最も頻繁に出現する値である。複数の最頻値が存在する場合もあり、データ集合は単峰(モードが1つ)、双峰(モードが2つ)、**多峰(モードが3つ以上)**と分類される。
特徴
-
名義尺度(カテゴリーデータ)にも使用可能
-
外れ値の影響を受けにくい
-
存在しない場合もある(全ての値が一度ずつ出現する)
例題
例1:
次のデータにおける最頻値を求めよ。
3, 7, 5, 3, 9, 5, 3
解答:
3が3回出現し、他の値より多いため、最頻値 = 3
例2:
4, 4, 6, 6, 7, 8
解答:
4と6が同じ頻度(2回ずつ)で最も多く出現しているため、最頻値 = 4, 6(双峰分布)
中央値(メディアン)
定義
中央値とは、データを小さい順に並べた際に中央に位置する値である。データ数が奇数なら中央の値、偶数なら中央の2値の平均をとる。
特徴
-
順序尺度以上で使用可能
-
外れ値の影響を受けにくい
-
分布の中心を反映するが、頻度には無関係
例題
例1(奇数個のデータ):
8, 3, 5, 9, 1
手順:
昇順に並べる → 1, 3, 5, 8, 9
中央の値 → 中央値 = 5
例2(偶数個のデータ):
10, 4, 6, 8
手順:
昇順に並べる → 4, 6, 8, 10
中央の2つの平均 → (6 + 8) / 2 = 中央値 = 7
算術平均(アリスメティック・ミーン)
定義
算術平均とは、全てのデータの合計をデータの個数で割った値である。
平均=データの個数データの合計
特徴
-
間隔尺度や比率尺度に使用可能
-
外れ値の影響を大きく受ける
-
データ全体の重心を示す
例題
例1:
5, 8, 7, 6, 9
合計=5+8+7+6+9=35個数=5平均=535=7
例2(外れ値を含む):
4, 5, 6, 100
合計=115,個数=4⇒平均=4115=28.75
→ 明らかに他の値に比べて100が突出しており、平均が大きく引き上げられている。
範囲(レンジ)
定義
範囲とは、最大値と最小値の差である。
範囲=最大値−最小値
特徴
-
データのばらつきを簡単に示す
-
外れ値の影響を強く受ける
-
分布の全体的な広がりを示す
例題
例:
3, 8, 2, 10, 6
最大値 = 10、最小値 = 2
範囲 = 10 − 2 = 8
総合演習問題
問題1:
次のデータに対して、最頻値、中央値、平均、範囲を求めよ。
4, 6, 6, 8, 10, 12, 14
解答:
-
最頻値 = 6(2回出現)
-
昇順に並んでいるため、中央値 = 8(中央の値)
-
合計 = 4 + 6 + 6 + 8 + 10 + 12 + 14 = 60 → 平均 = 60 / 7 ≈ 8.57
-
範囲 = 14 − 4 = 10
問題2:
15, 20, 25, 20, 15, 25, 30
-
最頻値 = 15, 20, 25(全て2回出現 → 多峰分布)
-
並び替え →
15, 15, 20, 20, 25, 25, 30→ 中央値 = 20 -
合計 = 150 → 平均 = 150 / 7 ≈ 21.43
-
範囲 = 30 − 15 = 15
表:代表値の比較
| 特徴項目 | 最頻値(モード) | 中央値(メディアン) | 平均(アリスメティック・ミーン) | 範囲(レンジ) |
|---|---|---|---|---|
| 順序必要性 | 不要 | 必要 | 必要 | 必要 |
| 外れ値の影響 | 小さい | 小さい | 大きい | 大きい |
| 名義尺度への対応 | 可能 | 不可 | 不可 | 不可 |
| 頻度との関連性 | あり | なし | なし | なし |
| 利点 | 簡単に把握可 | 中心の値を明確に示す | 全体の重心を表現 | 広がりの指標 |
| 欠点 | 存在しない場合有 | 計算不可な場合有 | 外れ値に弱い | 外れ値に敏感 |
実生活における活用例
教育現場
-
平均点:クラス全体の学力傾向を把握するために平均点を算出。
-
中央値:外れ値(極端に低い点や高い点)を排除して、一般的な傾向を見る。
-
最頻値:最も多く選ばれた回答や成績分布の中心を見る際に有効。
医療
-
体温の平均値:集団における健康状態を判断。
-
中央値の寿命:外れ値の影響を排除した実質的な寿命中央値を用いることがある。
経済
-
所得の中央値:所得格差の実態把握に重要。
-
最頻値価格:マーケティング分析で最も売れている価格帯を見つける。
統計教育への提言
教育において、代表値の学習はデータリテラシーの根幹である。特に近年の情報社会では、あらゆる分野でデータの分析と解釈が求められているため、小・中・高等学校において段階的に以下のように学ぶべきである。
-
小学校段階: 絵や表を使って最頻値・中央値の意味を体験的に学ぶ。
-
中学校段階: 実際の数値データを用いて手計算で平均や範囲の理解を深める。
-
高等学校段階: 外れ値、標準偏差、分散との関係まで踏み込んだ応用分析を行う。
結論
最頻値、中央値、算術平均、範囲は、単なる数学的指標ではなく、現実の世界を理解するための有力な道具である。それぞれの指標はデータの異なる側面を反映し、状況に応じた使い分けが求められる。単に計算するだけでなく、どのような場面で、どの指標が最も適しているかを判断する力が、統計的リテラシーにおいて極めて重要である。
参考文献:
-
文部科学省「学習指導要領(数学)」
-
日本統計学会『統計学入門』
-
渡辺美智子『統計の基本と応用』朝倉書店
-
矢野健太郎『統計のはなし』講談社ブルーバックス
-
OECD(2018)”The Future of Education and Skills: Education 2030″
