数学

統計の代表値と計算方法

統計における代表値:最頻値、中央値、算術平均、範囲の完全ガイド

統計学において、データ集合の特徴を簡潔に表現するためには、代表値と呼ばれる値を用いることが不可欠である。代表値には様々な種類があり、それぞれ異なる側面からデータを要約する。この記事では、最頻値(モード)中央値(メディアン)算術平均(平均値、アリスメティックミーン)、および**範囲(レンジ)**という代表的な統計量について、理論的な解説とともに多くの具体的な例題を交えて、完全かつ包括的に解説する。


最頻値(モード)

定義

最頻値とは、データの中で最も頻繁に出現する値である。複数の最頻値が存在する場合もあり、データ集合は単峰(モードが1つ)双峰(モードが2つ)、**多峰(モードが3つ以上)**と分類される。

特徴

  • 名義尺度(カテゴリーデータ)にも使用可能

  • 外れ値の影響を受けにくい

  • 存在しない場合もある(全ての値が一度ずつ出現する)

例題

例1:

次のデータにおける最頻値を求めよ。

3, 7, 5, 3, 9, 5, 3

解答:

3が3回出現し、他の値より多いため、最頻値 = 3

例2:

4, 4, 6, 6, 7, 8

解答:

4と6が同じ頻度(2回ずつ)で最も多く出現しているため、最頻値 = 4, 6(双峰分布)


中央値(メディアン)

定義

中央値とは、データを小さい順に並べた際に中央に位置する値である。データ数が奇数なら中央の値、偶数なら中央の2値の平均をとる。

特徴

  • 順序尺度以上で使用可能

  • 外れ値の影響を受けにくい

  • 分布の中心を反映するが、頻度には無関係

例題

例1(奇数個のデータ):

8, 3, 5, 9, 1

手順:

昇順に並べる → 1, 3, 5, 8, 9

中央の値 → 中央値 = 5

例2(偶数個のデータ):

10, 4, 6, 8

手順:

昇順に並べる → 4, 6, 8, 10

中央の2つの平均 → (6 + 8) / 2 = 中央値 = 7


算術平均(アリスメティック・ミーン)

定義

算術平均とは、全てのデータの合計をデータの個数で割った値である。

平均=データの合計データの個数\text{平均} = \frac{\text{データの合計}}{\text{データの個数}}

特徴

  • 間隔尺度や比率尺度に使用可能

  • 外れ値の影響を大きく受ける

  • データ全体の重心を示す

例題

例1:

5, 8, 7, 6, 9

合計=5+8+7+6+9=35個数=5平均=355=7\text{合計} = 5 + 8 + 7 + 6 + 9 = 35 \text{個数} = 5 \text{平均} = \frac{35}{5} = 7

例2(外れ値を含む):

4, 5, 6, 100

合計=115,個数=4平均=1154=28.75\text{合計} = 115, \quad \text{個数} = 4 \Rightarrow \text{平均} = \frac{115}{4} = 28.75

→ 明らかに他の値に比べて100が突出しており、平均が大きく引き上げられている。


範囲(レンジ)

定義

範囲とは、最大値と最小値の差である。

範囲=最大値最小値\text{範囲} = \text{最大値} – \text{最小値}

特徴

  • データのばらつきを簡単に示す

  • 外れ値の影響を強く受ける

  • 分布の全体的な広がりを示す

例題

例:

3, 8, 2, 10, 6

最大値 = 10、最小値 = 2

範囲 = 10 − 2 = 8


総合演習問題

問題1:

次のデータに対して、最頻値、中央値、平均、範囲を求めよ。

4, 6, 6, 8, 10, 12, 14

解答:

  • 最頻値 = 6(2回出現)

  • 昇順に並んでいるため、中央値 = 8(中央の値)

  • 合計 = 4 + 6 + 6 + 8 + 10 + 12 + 14 = 60 → 平均 = 60 / 7 ≈ 8.57

  • 範囲 = 14 − 4 = 10

問題2:

15, 20, 25, 20, 15, 25, 30

  • 最頻値 = 15, 20, 25(全て2回出現 → 多峰分布)

  • 並び替え → 15, 15, 20, 20, 25, 25, 30 → 中央値 = 20

  • 合計 = 150 → 平均 = 150 / 7 ≈ 21.43

  • 範囲 = 30 − 15 = 15


表:代表値の比較

特徴項目 最頻値(モード) 中央値(メディアン) 平均(アリスメティック・ミーン) 範囲(レンジ)
順序必要性 不要 必要 必要 必要
外れ値の影響 小さい 小さい 大きい 大きい
名義尺度への対応 可能 不可 不可 不可
頻度との関連性 あり なし なし なし
利点 簡単に把握可 中心の値を明確に示す 全体の重心を表現 広がりの指標
欠点 存在しない場合有 計算不可な場合有 外れ値に弱い 外れ値に敏感

実生活における活用例

教育現場

  • 平均点:クラス全体の学力傾向を把握するために平均点を算出。

  • 中央値:外れ値(極端に低い点や高い点)を排除して、一般的な傾向を見る。

  • 最頻値:最も多く選ばれた回答や成績分布の中心を見る際に有効。

医療

  • 体温の平均値:集団における健康状態を判断。

  • 中央値の寿命:外れ値の影響を排除した実質的な寿命中央値を用いることがある。

経済

  • 所得の中央値:所得格差の実態把握に重要。

  • 最頻値価格:マーケティング分析で最も売れている価格帯を見つける。


統計教育への提言

教育において、代表値の学習はデータリテラシーの根幹である。特に近年の情報社会では、あらゆる分野でデータの分析と解釈が求められているため、小・中・高等学校において段階的に以下のように学ぶべきである。

  1. 小学校段階: 絵や表を使って最頻値・中央値の意味を体験的に学ぶ。

  2. 中学校段階: 実際の数値データを用いて手計算で平均や範囲の理解を深める。

  3. 高等学校段階: 外れ値、標準偏差、分散との関係まで踏み込んだ応用分析を行う。


結論

最頻値、中央値、算術平均、範囲は、単なる数学的指標ではなく、現実の世界を理解するための有力な道具である。それぞれの指標はデータの異なる側面を反映し、状況に応じた使い分けが求められる。単に計算するだけでなく、どのような場面で、どの指標が最も適しているかを判断する力が、統計的リテラシーにおいて極めて重要である。


参考文献

  1. 文部科学省「学習指導要領(数学)」

  2. 日本統計学会『統計学入門』

  3. 渡辺美智子『統計の基本と応用』朝倉書店

  4. 矢野健太郎『統計のはなし』講談社ブルーバックス

  5. OECD(2018)”The Future of Education and Skills: Education 2030″


Back to top button