SSブログ
[PR]本のベストセラー

マンガでやさしくわかる統計学 [雑学]

マンガでやさしくわかる統計学統計学の意味がわかる

工夫
ストーリー漫画を使ってビジネスにピントを合わせる
高度な数学をイメージ図に置き換える

推測統計の本質でありながら最も理解の難しい無限母集団を福引箱のイメージ図を使って具体化する
統計学には記述統計と推測統計がある

記述統計とはデータセットからその特徴をあぶりだす手法。
推測統計とは記述統計の計算と確率の理論を組み合わせてデータを生み出す背後の確率的な仕組みを見抜く手法

プロローグ 統計学とは
入社4年目の晴香は経験と勘にたよった仕事ぶりで上司と対立し勢いで会社を退職。両親が経営する商店街の洋食店を手伝いはじめる。ここでも客の注文が「タコライス」に集中しているからと、他のメニューをやめてコストを削減しようとしたところお客さんが激減。店の客で大学で麹菌の研究をしている数沢准教授の「統計学を使えばいい」という言葉を頼りに統計学を教わりながら、客が減った原因を統計学で調べる。

統計学はビジネスの必須アイテム
数字は客観的であり嘘をつかないそして数字はみんなに伝わるし共有もできる。

数字から事実を引き出すステップ
ステップ1 なんとなく印象として気が付く
ステップ2 数字化して眺めてみる
ステップ3 ステップ2の数字がステップ1の印象を裏付けていることを認める
ステップ4 統計学を使って計算してステップ3を検証する
例では「雨の日はタコライスの注文が多い」という現象で解説していた。この場合ステップ4では雨の日の注文数の平均値と雨でない日の注文数の平均値を比べる。

平均値は統計量。統計量とはデータの特性を一つの数値で表す指標のこと
統計量は他に分散、標準偏差、共分散、相関関数などたくさんの指標がある。

記述統計の作業だけでも現象の本質を見抜く力は随分向上する。
主観から客観へ足場を移すことができる。
より科学的な判断を下すためにはトルコライスについて適切な確率の仕組みを設定して平均値の隔たりは偶然なのか必然なのか判断するべき。
それを可能にするのは推測統計。

統計的手法を学ぶにはまずヒストグラムを見る技術を磨く必要がある。
ヒストグラムとはデータの分布を図形化したもの。統計量を理解するプロセスではヒストグラムが大きな助けになる。
ヒストグラムの見方 
  横軸・・・データの数値のグループ分け(階級)
  縦軸・・・観測回数
数棒の高さは観測回数だということを脳に染み込ませること。
階級は6~8の階級が経験的に良いとされている 。
ヒストグラムのでこぼこは注目していることが不確実に揺らぐ様子。
棒が複数あるということはトルコライスの注文数が日によってばらついていることを意味し注文数の不確実性を表している。

1章 記述統計
記述統計は簡単な計算で、単なる数字の羅列からその特徴を見抜いたり秘密を見破ったりする奥義を手にいれるられる。
最も重要な奥義は標準偏差。

晴香は、店のレジに残っていたお客のデータを元に数沢のアドバイスでお客を年齢別にわけて、ヒストグラム化する。すると、変更前のヒストグラムの棒の高さはそれほどかわらないのに、変更後のヒストグラムは30歳近辺が一番高くなり、他の棒が極端に小さいことがわかった。さらに標準偏差をだしてみると標準偏差は10.2歳から6.4歳に縮んでいたことがわかる。変更前と後ではお客さんの平均年齢は変わっていなかったが、実は客層がおおきくちがっていたのである。
なんとなくいつもと違うと思っていた印象が統計で明らかになった。おそらくメニューがたくさんあることが呼び水となって色々なお客さんを見せに呼び込んでいた。迷った末に結局タコライスを選んでいた人が多かったのだ。メニューを戻すと店は元の賑わいを取り戻す。

生データを一旦数値に置き換えるのは先入観を消すため。
調べたデータが一種類で、それが偶然自分の先入観を多少なりとも裏付けるものだったらすぐに飛びついてしまう。

注文数が日々まちまちの値になるのはトルコライスの注文が様々な偶然によって左右されるから。
たくさんのサイコロいっぺんに投げたのと同じような複雑な偶然性を作り出す出すので注文数は日々まちまちな数字を取るこのように街町の数値が発生することを専門の言葉で分布と呼ぶ
データの数値は分布しデータの背後にある不確実性を反映しているのである

この数値から一つの代表的な値を抜き出すのが平均値。
平均値は○○平均という種類がたくさんあるが、ここでは最も一般的な相加平均を平均値と呼んで使う。
全部のデータを足して、データ数で割ったもの。

平均値のとは
・平均値は分布するまちまちな数値の中から代表的な数値として選び出されている
・平均値は最大値と最小値の間の数となる
・平均値がいくつとしめされれば実際のデータはその周辺に分布しているとわかる
・データが全て同一と想定した場合それを平均値と考えれば合計の意味では過不足は起きない
平均値は1か月分の食材を注文したいときなどに役に立つ。

平均値はその周辺にどのくらいの揺れ広がりがあるかまでは教えてくれないそれを教えてくれるのが標準偏差 S.D.(Standard Deviation)。
標準偏差は平均値と共に統計学の二枚看板となる統計量。

標準偏差の計算

まず偏差を求めること。偏差とはデータの数値から平均値を引いたもの。
偏差は平均値からの揺れ具合を表す平均値からどのぐらい遠くの数値が出現するかも教えてくれる。
ゼロから遠い数値が多く現れる場合平均値から離れた数値が結構あるということがわかり、反対にゼロに近いなら平均値の近くの数字ばかりであるとわかる。偏差はデータの数値の揺れ広がりがどの程度の大きさかを見せてくれるもの。

全データから平均値を求めた時のように偏差の数値等を一つの数値で代表的に表したいという欲求にこたえたのが分散。
を全部足し合わせた個数で割るという戦略がうまくいかないプラスとマイナスが打ち消しあってしまうためである。
そこでまず偏差の二乗の平均値を分散とする(符号転換より二乗でマイナスを消す方が数学の神様にはありがたい)
偏差が2倍になると分散は4倍。
分散が小さいことはゼロに近い偏差が多いので平均に近い数値が多い
分散が大きいというのはゼロから遠い偏差が多く平均から遠い数値が多い

分散は偏差を2乗した数値なので元の大きさの水準に戻したいならルートすれば良い。
これが標準偏差。
大まかに一つの数値で言えばある程度の揺れ方があるということがこれでわかる。

標準偏差の意味をより理解するためには極端なケースを考える。
全てのデータが一定数である場合
次にデータのちょうど半数が平均よりa大きく残る半分が平均値よりa小さい場合
ヒストグラムを示しながら、標準偏差が、データたちの揺れ・広がりであることを解説。

平均値と標準偏差を理解することが理解し使いこなすことが統計学に執着する第一歩。

標準化とは平均値と一致するデータをゼロ
平均値から丁度標準偏差の部分だけ大きいデータは+1に加工され
平均値から標準偏差の部分だけ小さいデータを-1に加工
平均値からの隔たりが標準偏差のK培分大きいデータはプラス形に加工され
標準偏差のK培分小さいデータはマイナス型に加工する

標準化の計算1
データ x の標準化=データ x の偏差 ÷ 標準偏差
標準化の計算2
データ x の標準化=( x ー平均値)÷ 標準偏差

標準化とはデータセットの固有の曲を取り除いて統一的に判断できるようにするために行う
偏差が10といわれても、それが特別な離れ方なのか判断できないが、標準化なら判断できる。

標準化から導き出せるポイント
標準化してプラス2と-2の間になるデータは月並み
標準化して+2以上または-2以下になるデータは特別
+-3以上遠く離れるデータは稀に見る特別なデータと判断

ミスユニバースの身長体重スリーサイズを標準化すると、2以上になっているところが特別であることがわかり、その数値の持ち主は本大会で3位と1位をとっていた。

2章 正規分布
正規分布は推測統計をサポートする重要アイテム。高度な数学を使うため多くの学習者はここで挫折する。
漫画のストーリーの中で大まかな見方を与える。

店の客は戻ったものの商店街の客足の売上の低下が問題に。日本の他の商店街と比べてもここ5年の落ち込みが激しい。
晴香と同級生は、数沢のアドバイスで、魅力的な商店街と、この商店街の違いについて、曲がり角の数や古い建物と新しい建物が残っている割合などをヒストグラムで比較することにする。町並みに残る古い建物の割合をヒストグラムにし、魅力的な街と、そうでない平凡な街力的な街は、ヒストグラムのどの階級に多いか、そしてこの街はどこに入っているのかをみていく。
魅力的は商店街は、1道が入り組んでいる 2古い町並みと新しいものが共存している 3人が多く横のつながりが強いという結論が出た。アメリカのジャーナリストジェイコブズが入っていた魅力的な都市と一致。
商店街は区画整理をして道をまっすぐにするなど全く間違った施策をしていたことはわかる。

推測統計とは確率の理論を導入して観測されたデータの背後にあるデータを生み出す不確実性の仕組みを推測すること。推測統計の入り口としてまず母集団を理解する必要がある。
母集団とは知りたい対象に関する数値全てお集まりとしたもの。母集団の中から観測された一部の数値を標本と呼ぶ。
推測統計は、観測された標本から母集団について推測する営みとまとめることができる。

母集団には通常の感覚で把握できる有限母集団とイメージ化が困難な無限母集団がある。
無限母集団とはいわゆる確率分布のこと。
確率分布とは数字がランダムに発生する確率的な仕組み。
無限集団は具体的に触ったり見たりすることできない架空の存在フィクション。

コイン投げの無限母集団は無限の1とゼロから構成される無限個の玉が詰められた福引箱。
玉には「1」「0」が記入されておりどちらも無限個あるが同数と空想する。
無限母集団で重要なのは玉を一個取り出しても福引箱の中の球の構成に何の影響もないということ。
無限母集団は標本を何個観測しても母集団の状態は変化しない。

確率分布の母集団に対しても平均値分散標準偏差を定義することができる。
それぞれ母平均・母分散・母標準偏差と呼ぶ。

母平均は母集団の平均。
仮に福引箱の玉の個数が大きいな有限値 n だったとして式をたて、このnがどの大きな数字でも同じであるため、 n が無限でも同じになると飛躍して解釈する。

母平均の計算
確率分布 母平均=数値×その数値が観測される確率の合計
福引箱のイメージ 母平均=玉の数値×その玉の比率の合計
ヒストグラムでは 母平均=横軸の数値×数値の上の棒の高さの合計

分散は偏差の2乗の平均なので
母分散=玉の数値の偏差の2乗×その比率の合計
標準偏差=母分散のルート

推測統計では母平均をギリシャ文字のμで、母標準偏差をギリシャ文字σで表す習わしがある。母分散はσ二乗
母集団を表す確率分布ではミュウの周辺の数値が観測されされるだろうと推測できる棒標準偏差シグマを知れば母集団を表す確率分母はにゅうの周辺の数値が観測されるがもちろんニューの前後湯楽部そのゆらぎの程度はシグマだろうと推測福引の確率分布の場合の平均は0.5標準偏差は0.5
これはこの母集団が0.5の周辺の数値からなり0.5から+-0.5程度揺らぐだろうと推測できる。
言い換えると0.5+0.5と0.5-0.5当たりの数値の頭が詰まった福引箱であろうと推測できる。
玉1と0の詰まったら福引箱だと推論できその場合は母集団をはっきりといいあてている。(一般にはこんなにはっきりさせることはできない)

無限母集団のうち統計学で最も重要視されるのは正規母集団と呼ばれるもの。
正規母集団とは確率分布図が特徴的な形をした一群の分布のことで、世の中に最も頻繁に現れる母集団。典型的なのは人間や動物や樹木の背丈の分布観測誤差や電波のホワイトノイズにも見られる。
正規母集団の標準モデルは標準正規母集団。
正規母集団の確率分布は、ヒストグラムの棒細くして本数を増やしていって、本数を無限に棒の太さを0にしたもの。これが正規分布。棒の高さではなく幅を持った領域の面積を確率と考える。確率密度とは「幅を持たせて面積にすると確率に転換される量」のこと。

標準正規母集団の確率分布図の特徴
・y 軸を対象軸に左右対象となっている
・釣鐘型(ベル型)をしており最も高い場所はx=0のところである
・確率密度はどんなに大きな正の x でも、どんなに小さな負xでも0にはならない。(グラフの裾野が左右に無限に伸びている)
・x が2以上の部分でグラフを急激に低くなる、 x がマイナス2のグラフは急激に低くなる。

標準正規母集団の福引箱に詰められた玉はマイナス無限からプラス無限まで全ての数が書かれており、数の書かれた玉はそれぞれ無限個ずつありそれぞれの占有率が異なっている。
2を超える数の書かれた-2を下回る数が書かれた玉は著しく少ない。
-2から2までの数値は全体の95.4%を占めている。
この母集団から0.7という表現が観測されるのは月並み。2.6という情報が観察されることは珍しい特別なこと。

一般の正規母集団は標準正規母集団を加工したもの。
一般の正規母集団の作り方ステップ
・ y 軸を中心に左右にσ培に伸ばす。全確率が1であることを保つためにグラフの高さはσ分の1となる。
・山のてっぺんの x 座標がμなるところまで横軸方向に平行移動する
福引箱でいうと
・標準世紀母集団の福引箱の玉をいったんすべてとりだし
・各玉に記入されている数値をみな一様にσ培してμを加え書き換える
・再度福引箱に詰め直す
これで平均がμで標準偏差がσの世紀母集団になる。

一般を標準に加工する標準化
上の逆をやる
この計算はデータの標準化と同じ。標準化の操作を正規分布にあてはめると「世紀母集団の数値を標準正規母集団の数値に加工することと同じ。

正規母集団を扱う上では、標準正規母集団の知識だけがあれば十分。
正規母集団を想定しているときには、標準化したときの値が2以上または-2以下は特別と判断されるのが強化される。それがおこる確率は約4.6%だからである、正規母集団でない母集団でも珍事的にこの基準を用いる。

次の章では複数の福引箱から玉をとりだして、その数値を足したり、平均したりする。
その準備として、福引箱Aからすべての玉をとりだし、書いてある数字を半分にして福引箱Bに戻す例で、両方の福引箱の母平均、母分散、母標準偏差がどうなっているか考える。
Bの母平均はAの半分
Bの母分散はAの4分の1
Bの母標準偏差はAの半分

第3章 仮説検定
推測統計の基本中の基本である仮説検定。
仮説検定とは仮説を立てデータからその成否を判断するという技術。
漫画で省略されている計算の部分は解説で詳しく説明。
仮説検定の手続き自体はそんなに難しくないが仮説検定の背後にあるロジックがきちんと普通の教科書には明記されていないことが多い。福引箱のイメージが活躍します。

晴香たちは魅力的な街をまねて商店街の積立金を使い改造を行う。テレビにとりあげられ人は増えたが、思ったほではない。その理由を探るために晴香は数沢に教えられた仮説検定を使う
仮説 最近イメージがあがってマンションもたって、人口が増えた、その人たちの世帯収入は高い。そういった人たちは商店街では買い物をしないのではいか?
うまくいっている商店街の富裕層来店率をX、この商店街の富裕層来店率をYとしたときX=Yはなりたつのか?

データから背後の母集団を予想するのが推測統計の入門
統計的推測と確率の順問題・逆問題
正規母集団の母平均の仮説検定
複数の標本を使って仮説検定をするには?
複数の標本からの仮説検定
差の検定

第4章 区間推定
区間推定はピンポイントの推定では当たらないから幅を持たせて推定するという至極自然な推定方法。
あまりに広い幅を取るのはナンセンスですからどこかで止める。そのために導入されているのが95%の信頼区間という考え方。しかしこの95%の95とは何なのか?誤解しやすい。仮説検定と関係づけることによって正しく理解するようにしている。

晴香は20か所の人気商店街を調査し、そこでしか手に入らないものが必要と結論。数沢が晴香の店からもちだしたホコリからつくった麹菌をくわえた料理を名物にすることにする。しかし商店街の人たちは菌の安定供給を心配する。そのとき数沢が晴香に教えたのが区間推定。それで95%の確率で安定供給できることがわかり、みな納得した。

区間推定はボックス買い
区間推定の計算をしてみよう
区間推定と仮説検定はオモテ・ウラの関係
95%が意味すること
統計的推測の免許皆伝

ここまでくれば推測統計のバックボーンとなってる「思想」のようなものを読者も十分に納得できる。
仮説検定と区間推定を習得できれば統計学の免許皆伝。
他の計算方法は、別種の確率理論を用いているだけで発想自体は同じ。


マンガでやさしくわかる統計学

マンガでやさしくわかる統計学

  • 作者: 小島 寛之
  • 出版社/メーカー: 日本能率協会マネジメントセンター
  • 発売日: 2017/05/21
  • メディア: 単行本



タグ:小島 寛
nice!(2) 
共通テーマ:

nice! 2

[PR]Kindle ストア ベストセラー

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。