No Haste, No Chains ~数学の教育をつくろう~

※はてなダイアリーから移行しました

ランク分け〜箱ひげ図

新課程の「データの分析」(「数学I」)について勉強中。

「データの分析」は旧課程「数学B」の「統計とコンピュータ」+αという感じです。その「+α」の中でも目を引くのが,箱ひげ図*1。調べたら,箱ひげ図の導入は1977年。結構新しいんですね*2。どうりで私の頃の教科書には載ってなかったわけだ。

箱ひげ図は最大値,最小値,中央値のほか,新課程で初めて登場した第1四分位数,第3四分位数の値を元にかく図で,箱ひげ図の4つの部分は大きさの順に並べたときの小さい方(大きいほう)から,〜25%,25〜50%,50%〜75%,75%〜のそれぞれに含まれる値の範囲がぱっと見てわかるようになっています。全体を上,中の上,中の下,下の4段階に分けてるってことですね。しかもほぼ同人数で。箱の部分に中央の約半数が入ってる。

平均(m)と標準偏差(σ)を使って,m±σの範囲にだいたい2/3(68.3%)が入ってるなんてことも言われますが,これは正規分布のような分布をしていることが前提で,変な分布(偏ってたり,山が2つあったり…)のときはこの通りになるわけではありません。*3箱ひげ図の場合はどんな分布でも箱の中には50%(そうなるように箱をかいたので当然ですが)。なかなかシビアです。

箱ひげ図をかくには最小値,第1四分位数,中央値,第3四分位数,最大値の値が必要ですが,これらはバラバラのデータがあるだけではわかりません。すべてのデータを大きさの順に並べたり,度数分布表を作ったりしないとわからないですよね。つまり,分布の様子はすでにわかってる。その上でこういう作業を行うのは

   全体の分布の様子の細かいことはわかってるから,もっとザックリした傾向が知りたい

ってことなのかな。大量データの集計が簡単にできる現代ならではですね。

一方,平均値と標準偏差に注目する方法は
   全体の分布はわからない。なんとかして分布の様子をつかんで個々の値の全体の中での位置を細かく知りたい
という願いからかな。

並べ替えとか度数分布表とかって,データ数が多いとかなり大変な作業じゃないかと思います。今は高速処理のコンピューター+表計算ソフトで少々多くてもあっという間ですが(特別な機関じゃなくても),そんなのほんの最近なわけで。これまで(今もですが)標準偏差が広く使われてきたのは,高速処理のコンピューターが無かった時代に大量データの分布について知るには,平均値と標準偏差を利用して正規分布から推測するしかなかったというところかと。データ数が少ない場合に歪な分布があるのはわかっていても,データ数が多くなれば代用しても問題ないくらい正規分布に近づいていくと信じて…。

統計分野は社会変化や計算機器,情報機器(コンピュータ,表計算ソフト,インターネットなど)の発達との関連が大きいので,いろいろ想像してみると楽しいです。

*1:リンク先:wikipedia「箱ひげ図」

*2:wikipedia「ジョン・テューキー」より

*3:正規分布に近い分布になる場合ももちろんたくさんあって,その場合は「m±σの範囲にだいたい2/3」は正しいです。