SSブログ
[PR]本のベストセラー

統計解析がわかる (ファーストブック) [雑学]

バラバラに見えている数値の集まりを整理し視覚化することで、全体的な理解を深めることができる。
これが記述統計学
平均とそれからどれだけ離れているかがその個体の特性になり、その分布がどうなっているかが統計の特徴になるってことかな。用語を解説しながらそういっていたような気がする。


統計学の狙いはたくさんのデータの裏にひそむ本質を把握すること。
これが推測統計学。標本調査から全体の情報を得るための技法。
推計統計学の為に、確率論、有名な確率分布の解説、少数のサンプルから全体を推計することから、母集団や標本抽出について解説。
標本から算出される値=推定値から母集団の分布に関する値=母数を推定するのが推定


統計的検定は品質管理や実験結果の判定などのバックボーンに使われる。
調査や実験を行って集められた標本を基に、ある仮説がただしいかどうかを統計的に判断する手法。
「その仮説のもとでは、標本から得られデータはとうてい得られない」とう考え方が利用される。


推定統計学の応用回帰分析、分散分析について解説



第1章 記述統計学

資料には2種類ある
全数調査・・・国税調査など調査対象全体を網羅した調査
標本調査・・・少数のサンプルを抽出し、それから全体の情報を得る方法。

資料の資格化方法
代表的な数値に集約させる方法・・・平均、メジアン(中央値)、モード(最頻値)、分散、標準偏差

統計資料用語
個票・・・何の加工もされていない、もっとも原始的な資料、1次データともいう
個体・・・資料の構成単位
個体名・・・個体の名称
変量・・・個体の調査項目

データを測る尺度
質的データ
 名義尺度・・・名義的に数値化を施す尺度、男を1、女を2に数値化
 順序尺度・・・順序に意味がある尺度 「好き」を1、「それほどでもない」を2、「嫌い」を3に数値化
量的データ
 間隔尺度・・・数の間隔に意味がある尺度、温度計や時刻
 比例尺度・・・数値の差とともに、数値の比にも意味がある尺度、身長、体重、時間

度数分布表・・・データを適当な間隔ごとの頻度(度数)で表したもの。
階級・・・データの収まる各区間
階級値・・・階級を代表する値
階級幅・・・区間の幅

相対度数・・・総度数で各度数を割って得られた値
相対度数分布表・・・相対度数の表、これを利用するとデータ数によらない割合の把握が容易になる。ExcelだとFREQUENCY
累積度数分布表・・・各階級の度数を積み重ねた表。ある境よりも大きい(または小さい)値を持つ度数を調べるとき便利。

可視化
ヒストグラム・・・度数分布表の階級を底辺、素数を高さにした棒グラフ
度数折れ線・・・ヒストグラムを構成する各長方形の上辺の中点を結んで得られる曲線。
Excelグラフ機能についている

平均値、中央値、最頻値、求め方。
どれがすぐれた代表値かは場合によるが、統計学では平均値が最も重要になる。

偏差・・・個体の値から平均値を引いて得られる値。個体の持つ個性
変動・・・資料の持つ全体個性。個々の個性を単純に加え合わせると、プラスとマイナスが打ち消し合ってしまうので、二乗して加える。偏差平方和ともいう。
分散・・・変動は資料が大きいほど値も大きくなってしまう。そこで個体数で割る。これば分散
標準偏差・・・分散の正の平方根
Excellでの変動=DEVSQ、分散=VARP、標準偏差=STDEVP

変量の標準化
個々のデータが資料の中でどのくらいの位置にあるか一目でわかるようする方法。
偏差を標準偏差でわると変量が標準化されて、その平均は0、分散は1になる
正なら平均値より大きく、負ならば小さい。
大きさが1よりおおきければ、標準より大きく離れている
という性質をもつ。
Aの起
相関図
資料に複数の変量が含まれている場合、その変量間の関係を視覚的に表すのが相関図、分布図ともよばれる。
変量xが増加すれば変量yも増加するのを正の相関
変量xが増加すれば変量yが減少するのを負の相関
それ以外は相関はないという。
2変量以上の資料の分析のために開発された研究分野が多変量解析、回帰分析もその一分野。

相関関係を数値化する方法
共分散(x-xの平均)×(y-yの平均)の正負の分布を調べると、正の相関は正になる点が多い、負の相関は府になる点が多い、相関がない場合は正負はいろいろになる。これらを加算して、総個体で割った値をx、yの共分散とよぶ。

共分散は資料の単位に依存するが、共分散を、xの分散×yの分散で割ったものを相関係数といい、これはー1から1の間の値をとり、0に近いほど相関がなく、1に近いほど正の相関が強いといえる。

ちなみに標準偏差は1で、標準化された変数間の相関係数はその共分散と一致する。

Excelでは共分散=COVAR 相関関数=CORRELまたはPEARSONとなる。


第2章 確率論の基本

サイコロの場合
試行・・・サイコロをなげるという操作
事象・・・その試行によって得られる結果
確率とは事象Aのおこる確率Pは、事象Aの起こる場合の数/起こりうるすべての場合の数

上の事実を集合で表すと
標本空間・・・ある試行において、起こりうるすべての事象の集まりU
確率を求めたい事象AはUの部分集合となる。
標本空間Uを構成する一つ以一つの基本的な事象=根本事象が同様に確からしいとき、事象Aの起こる確率P(A)は、集合の記号で定義できる。
P(A)=n(A)/n(U)

確率変数・・・確率的に値が定まる変数、試行して初めて値が確定する変数のこと
サイコロだと目Xのこと、試行して1から6のどれかに決まる。

確率分布・・・確率変数の値に対応して、それが怒る確率値が与えられるときの対応
確率分布表・・・その対応表

人の身長や製品の重さ、各種経済指標など、連続的な値をとる変数を確率変数とみなす場合には、表で表すことが不可能なので、確率密度関数で表す。

累積分布関数・・・推定や検定で利用される。確率変数Xが値xより小さい値をとる確率pを与える。

パーセント点・・・上側100p%点と両側100p%点とは、確率密度関数の上側また両側の確率がpになるときの確率変数Xの値xのこと。これをまとめてパーセント点とよぶ。

p値・・・確率変数Xの値xから、その上側または両側の確率をもとめ、推定や検定につかう。この値を確率変数Xの値xに対するp値とよぶ。

確率変数の平均値と分散の求め方。

確率変数の標準化 平均値0、分散1に変換する公式


第3章 有名な確率分布
一様分布・・・一定区間のどの値を捕る確率も等しい確率分布。例棒をたてて倒れる向き
ベルヌーイ分布・・・二者択一的な試行の確率分布。例コイン投げ
二項分布・・・同じことを何回も繰り返したとき、ある事柄が何回怒るかの確率分布。
正規分布・・・自然現象や社会現象の多くで確率現象を説明するために利用される
標準正規分布・・・平均値0、分散1の正規分布
t分布・・・標本が小さいときに大事な分布
x^2分布・・・不偏分布が従う分布
F分布・・・分散比が従う分布
ポアソン分布・・・希に怒る事象の分布
二項分布の正規分布近似・・・面倒な二項分布の計算を簡単な正規分布の計算におきかえる

第4章 母集団と標本
母集団・・・日本在住の成人全員の身長の集まりをUとする。この集合Uが調べようとしている平均身長の元になる集合母数(パラメータ)・・・母集団を特徴づける数値
標本(サンプル)・・・母集団から取り出した一部
標本の大きさ・・・標本に含まれる要素の数

無作為抽出・・・標本を抽出するときときあ、どの要素が選び出されるかは独立で唐確立であるように標本を取り出すこと。
無作為標本・・・無作為に抽出した標本

復元抽出・・・母集団から個体を1個取り出してその値を調べ、調べ終わったら元に戻す。同じ標本が抽出されることがある。
非復元抽出・・・母集団から個体を1個取り出して調べ、調べ終わったら戻さない。抽出の独立性が損なわれる。

正規母集団・・・調査したいデータ全体の集まり=母集団が正規分布に従う。

無作為抽出と乱数
無作為抽出する有名な方法
1 乱数表の利用
2 乱数サイコロの利用
3 コンピュータが作る乱数を利用

母集団分布・・・母集団において確率変数Xが従う分布
母集団分布を特徴づける値が母数、推計統計学の目的は母集団の母数を知ること。

推定量・・・標本から得られる標本分散、不偏分散などの統計量は確率変数で、母数の推定に使われる。標本平均は慕平均を推定する際に使われる統計量。
推定値・・・実際に抽出された標本から算出された母数の推定量の値

すぐれた推定値の性質
標本から得られる推定量について、それらがどんな性質を持っているのか知ることが重要。
不偏性、一致性、有効性

推定量の自由度
不偏分散の分母が標本の大きさでない理由。自由度の説明。

中心極限定理
母集団から抽出して得られる標本平均の分布には、標本の大きさがある程度大きければ、正規分布で近似できる性質がある。

第5章 統計的推定
次について解説していた。
点推定
区間推定
分散がわかっているときの推定
分散が不明の時の推定
なにも情報がないときの推定法
標本比率から母比率を推定
正規母集団の分散の推定


第6章 統計的検定の考え方
標本から仮説の審美を判定する
「そんなはずがない」「きっと、こうだろう」という発想を基に仮説をたてて証明
次の方法について解説
片側検定と両側検定
第1種の過誤と第2種の過誤・・・検定における誤り
検定の手順・・・・機械
母平均の検定・・・平均が変化したと思えたら
母比率の検定・・・比率が変化したと思えたら
母平均の差の検定・・・二つの母平均に違いあると思えたら
母比率の差の検定
母分散の比の検定


第7章 回帰分析
次の方法について説明・・・試験結果と給与が例
単回帰分析・・・1変数を1変数で説明する分析術
回帰方程式を求める原理・・誤差の挿話を最小にする最小2乗法
決定係数・・・回帰方程式の制度を表す。
重回帰分析・・・1変数を複数の変数で説明する分析術
EXCELだとLINEST

第8章 分散分析
ばらつきを科学する分析
次の方法について解説・・・例は豚の体重増加が飼料と温度によるか
1元配置の分散分析・・・1因子の効果を検証する分析術
1元配置の分散分析表
繰り返しのない二元配置の分散分析・・・同一条件データが1つの場合の2因子の分析
繰り返しのない二元配置の分散分析表
繰り返しのある二元配置の分散分析・・・同一条件データが複数の場合の2因子の分析
繰り返しのある二元配置の分散分析表

付録
対数と対数尤度
銃回帰方程式の一般的な解法
LINEST関数を利用した回帰分析・・就職試験結果で
Excelで分散分析
統計のためのExcel関数
正規分布表
t分布表
F分布表
x^2分布表




統計解析がわかる (ファーストブック)

統計解析がわかる (ファーストブック)

  • 作者: 涌井 貞美
  • 出版社/メーカー: 技術評論社
  • 発売日: 2010/06/11
  • メディア: 単行本(ソフトカバー)



タグ:涌井 貞美
nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

トラックバック 0

[PR]Kindle ストア ベストセラー

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。