統計・機械学習まとめ
OverView
統計学 ↔ 機械学習
与えられた「Data」から人がわかる最もらしい答え[命題]を見つける ↔ 与えられた「Data」から、”次の個体”の性質を予測する
記述統計
keywords
- 中間値
- 平均値
- 最頻値
- 4分位点
- 分散
分散
σ^2 = {Σ(Xi-μ)^2}/n [μ: データの平均値 Xi: 各データ]
σ = ({Σ(Xi-μ)^2}/n) ^ 1/2 [μ: データの平均値 Xi: 各データ]
記述統計 → すべてのDataが観測できている場合
推測統計
一部のDataに対する分析から全体を推測する
P値 → P値をデータ分析者が決め、それに従って信頼区間などが決まる。
ex. 標本平均が50, 元の集団が正規分布
P値が 5 → 45~50 母集団平均
P値が 0.01 → 40~60 母集団平均
とか。
P値を下げると、その分「正確な値を取ろうとする」ため、分析の結果出てくる信頼区間が大きくなる(不確かな幅を大きくせざるをえない)
ノンパラメトリック手法の方が、頑健である(どんな分布にも対応できる)が、検出力が低い(peakyに反応しない) → みたいデータの特徴に反応し辛い → 前提(正規分布)を落としているため
統計学における「誤り」
第一種過誤 または偽陽性
-> 帰無仮説が実際には真であるのに棄却してしまう過誤
第二種過誤 または偽陰性
-> 対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤
Keywords
- 検定
- 母集団に対して, 要素xが有意に異なる、ということ
- 帰無仮説 ↔ 対立仮説
- 回帰分析
- 5つぐらい統計的仮説がある
- 多重線形性
- 単回帰、重回帰
- 変数の尺度、質
- 時系列データ ARMA, ARIMA
データサイエンティストの極意
- 分析力
- モデルを理解し、データセットと仮説があればoutputできるか
- システム力
- 戦略立案力
- 必要なDataの判断、仮説立案力、それをビジネスにどうフィードバックさせるか
機械学習
- 教師あり学習
- 教師なし学習
- 強化学習
- 教師あり学習
-> 「被説明変数」的答えありきでStartする
よく使われるジャンル
分類と回帰, Ranking
- 二値分類
- 多値分類
- ロジスティック回帰
- 決定木分析
- ジニ係数
- Support Vector Machine
カーネル関数
soft-margin
hard-margin
Neural Network
入力層
隠れ層 hidden parameter
出力層
Back
Random Forest
アンサンブル学習
-> 学習器をたくさん作って木をたくさん作る
- ROC曲線
- NLP
- 次元の呪い(説明変数を多くするほど汎化性能が低下する、計算量が多くなる)を脱却できる
ROC曲線
判別木の性能評価
- 適合率 Precision
- 再現率 Recall
- 正解率 Accuracy
- AUC
true-positive
false-positive
false-negative
true-negative
のマトリクスで見る
Area Under Curve
http://qiita.com/kenmatsu4/items/550b38f4fa31e9af6f4f
教師なし学習
Un Supervised Learning
- 教師あり学習の最適化 → 損失関数を最小化している、と考えられる「間違って分類するcaseをなるべく減らそう!」
- 教師なし学習
- 高次元データから低次元データにどうやって落とすか
- parameter目線
- なんでもいいから、分けろ。
- 必ずしも人間に把握できる分類とは限らない
- k-means法
- 主成分分析
- 自己組織化Map
k-means法
再現性があんまない
各データのベクトルのユークリッド?距離をとる
近いものをピトピトピト
雪だるま 重心が平均
主成分分析
ベクトルの射影?
なるべく情報量の損失が少なくなるように
回帰分析っぽい?
自己組織化Map
Neural Networkの一部
一個選ぶ
周りにおすそ分け
強化学習
-> 教師あり学習の一部と見る人も多い
教師あり学習 → 「答え」を与える
強化学習→ 「報酬」を与える
ミソ → 「報酬をどう決めるか」
ex. 将棋
どの手がいいのか?
昔:
「銀が王の周りにいると。。。」
「駒得...」
強化学習:
中盤から相互にランダムに駒を動かし続けて
「その手によって盤の評価スコアが上がったか下がったか」を見る