図でつかむ
箱の長さは中央50%の散らばり、ひげの長さは端の値までの広がりを表します。平均ではなく、分布の形を比べるための図だと押さえてください。
箱ひげ図とは
5つの値(最小値・Q₁・中央値・Q₃・最大値)から作る。
1つの図で データの広がり、偏りがひと目で分かる。
5つの値(5数要約)
- 最小値(min):データの最小
- Q₁(第1四分位数):25% 位置
- Q₂(中央値):50% 位置
- Q₃(第3四分位数):75% 位置
- 最大値(max):データの最大
箱ひげ図のかき方
① 数直線(または軸)を用意
② 箱を Q₁ から Q₃ までの範囲で描く
③ 箱の中に 中央値 Q₂ の位置に縦線を引く
④ 箱の 両端から最小値・最大値まで水平線(ひげ)を伸ばす
⑤ 最小値・最大値の位置に小さな垂直線
箱ひげ図のイメージ
min ────[ Q₁ │ Q₂ │ Q₃ ]──── max
ひげ 箱 ひげ
左から:min、ひげ、Q₁、箱の中の中央値、Q₃、ひげ、max
縦に描く場合もある(高さ方向に並べる)
箱ひげ図の読み方
箱の長さ = 四分位範囲(Q₃ − Q₁):中央 50% の散らばり
→ 箱が長い:データが広く散らばっている
→ 箱が短い:データが密集
ひげの長さ = 端のデータまでの距離
→ ひげが長い:外れ値の可能性
中央値の位置:箱の中で偏っていれば、分布が非対称
→ 中央値が右寄り:データが左に偏っている
→ 中央値が左寄り:データが右に偏っている
具体例 ── 箱ひげ図を作る
並び替え済み
最小値 = 2、最大値 = 18
中央値 Q₂ = 8(5番目)
下半分(2,4,5,7)→ Q₁ = (4+5)/2 = 4.5
上半分(11,13,15,18)→ Q₃ = (13+15)/2 = 14
5数要約:2、4.5、8、14、18
→ これを数直線に描くと箱ひげ図完成
複数データの比較
複数のクラス・店舗などのデータを 並べて比較できる
中央値・散らばり・外れ値の有無が一目瞭然
→ ヒストグラムよりも比較に向く
→ A組 と B組 の成績比較、年度ごとの売上比較 など
A組:最小30、Q₁ 50、中央60、Q₃ 75、最大90
B組:最小40、Q₁ 55、中央70、Q₃ 80、最大95
→ B組のほうが中央値・四分位数すべて高い → 全体的に高得点
→ A組のほうが範囲が広い(散らばりが大きい)
ヒストグラムとの違い
| 箱ひげ図 | ヒストグラム | |
|---|---|---|
| 表すもの | 5数要約 | 度数分布 |
| 得意 | 複数データの比較 | 1つのデータの形を見る |
| 分布の詳細 | 大ざっぱ | 細かく分かる |
| 用途 | 比較中心 | 1グループの詳細 |
外れ値と箱ひげ図
慣例:Q₁ − 1.5 × IQR より小、または Q₃ + 1.5 × IQR より大なら「外れ値」
外れ値は箱ひげ図で 点で表す(ひげの外側に)
→ 外れ値が見えるので、データ分析で役立つ
中学校レベルでは詳しくは扱わないが、知っておくと便利
- 最小値、Q₁、Q₂、Q₃、最大値 の 5つすべて必要
- 1つ抜けると箱ひげ図にならない
- 偶数個のデータは平均で計算(前回学習)
- 箱の 左端 = Q₁、右端 = Q₃
- 箱の中の縦線が 中央値 Q₂
- ひげの先が最小値・最大値
- 箱の長さ = 四分位範囲
- 箱ひげ図を描くときは 横軸の目盛りを等間隔に
- 等間隔でないとデータの広がりが正しく見えない
- 数値も明示する
練習問題
データ:2, 4, 5, 7, 9, 11, 13, 15, 18 の5数要約を求めよ。
答えを見る
並び済み、9個。Q₂ = 9(5番目)
下半分 2, 4, 5, 7 → Q₁ = (4+5)/2 = 4.5
上半分 11, 13, 15, 18 → Q₃ = (13+15)/2 = 14
min = 2、max = 18
5数要約:2、4.5、9、14、18
あるクラスのテストの箱ひげ図で、Q₁ = 50、Q₃ = 80 だった。四分位範囲と、中央 50% の生徒が取った得点の範囲を答えよ。
答えを見る
四分位範囲 = 80 − 50 = 30
中央 50% の生徒は 50点〜80点 の範囲。
2つのクラス A、B の数学の点数の箱ひげ図を比較する。A の中央値が 65、B の中央値が 70 だった。どちらが全体的に高得点か?
答えを見る
中央値が高いのは B → B のクラスが全体的に高得点と判断できる。
A のクラス:四分位範囲 = 10、B のクラス:四分位範囲 = 20。どちらが散らばりが大きいか?
答えを見る
B(IQR が大きい = 中央50%の散らばりが大きい)
まとめ
- 箱ひげ図:5つの値(min, Q₁, Q₂, Q₃, max)で作る。
- 箱の長さ = 四分位範囲(中央50%の散らばり)。
- ひげの長さ = 全体の散らばり。
- 箱の中の縦線 = 中央値。
- 複数データの比較に便利(ヒストグラムより向く)。
- 外れ値が見えやすい。