OverView

統計学 ↔ 機械学習
与えられた「Data」から人がわかる最もらしい答え[命題]を見つける ↔ 与えられた「Data」から、”次の個体”の性質を予測する

記述統計

keywords

中間値
平均値
最頻値
4分位点
分散

分散

σ^2 = {Σ(Xi-μ)^2}/n [μ: データの平均値 Xi: 各データ]

標準偏差

σ = ({Σ(Xi-μ)^2}/n) ^ 1/2 [μ: データの平均値 Xi: 各データ]

記述統計 → すべてのDataが観測できている場合

推測統計

一部のDataに対する分析から全体を推測する

P値 → P値をデータ分析者が決め、それに従って信頼区間などが決まる。

ex. 標本平均が50, 元の集団が正規分布
P値が 5 → 45~50 母集団平均
P値が 0.01 → 40~60 母集団平均
とか。

P値を下げると、その分「正確な値を取ろうとする」ため、分析の結果出てくる信頼区間が大きくなる(不確かな幅を大きくせざるをえない)

パラメトリック手法

母集団が正規分布である前提

ノンパラメトリック手法

母集団がどんな分布かを想定しない手法

ノンパラメトリック手法の方が、頑健である(どんな分布にも対応できる)が、検出力が低い(peakyに反応しない) → みたいデータの特徴に反応し辛い → 前提(正規分布)を落としているため

統計学における「誤り」

第一種過誤 または偽陽性
-> 帰無仮説が実際には真であるのに棄却してしまう過誤
第二種過誤 または偽陰性
-> 対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤

Keywords

ベイズ統計 → 古典統計 + α

頻度主義では不確かさの定量化はランダム性のみに基づくのに対し、ベイズ主義では情報が不足していることにも基づくとし、不確かさの定量化を広く考える。
事前分布

分布

検定

母集団に対して, 要素xが有意に異なる、ということ
帰無仮説 ↔ 対立仮説

回帰分析

5つぐらい統計的仮説がある
多重線形性
単回帰、重回帰

変数の尺度、質
時系列データ ARMA, ARIMA

データサイエンティストの極意

分析力

モデルを理解し、データセットと仮説があればoutputできるか

システム力

データセットの収集、継続的な運用のためのシステム要件定義ができるか

オンライン学習: Spark
バッチ学習 : Hadoop

戦略立案力

必要なDataの判断、仮説立案力、それをビジネスにどうフィードバックさせるか

機械学習

教師あり学習
教師なし学習
強化学習

教師あり学習

-> 「被説明変数」的答えありきでStartする

よく使われるジャンル

分類と回帰, Ranking

二値分類

多値分類

ロジスティック回帰

決定木分析
ジニ係数

Support Vector Machine

カーネル関数
soft-margin
hard-margin

Neural Network

入力層
隠れ層 hidden parameter
出力層
Back

教師なし学習
強化学習
Back Propagation

各ニューロン(node)の閾値が[SoftMax関数, タンエイチ]

学習立
parameter最適か
損失関数
抽象化
次元削減

Random Forest

アンサンブル学習
-> 学習器をたくさん作って木をたくさん作る

ROC曲線
NLP
次元の呪い(説明変数を多くするほど汎化性能が低下する、計算量が多くなる)を脱却できる

ROC曲線

判別木の性能評価

適合率 Precision
再現率 Recall
正解率 Accuracy
AUC

true-positive
false-positive
false-negative
true-negative
のマトリクスで見る
Area Under Curve
http://qiita.com/kenmatsu4/items/550b38f4fa31e9af6f4f

教師なし学習

Un Supervised Learning

教師あり学習の最適化 → 損失関数を最小化している、と考えられる「間違って分類するcaseをなるべく減らそう！」

教師なし学習

高次元データから低次元データにどうやって落とすか
parameter目線
なんでもいいから、分けろ。
必ずしも人間に把握できる分類とは限らない

k-means法
主成分分析
自己組織化Map

k-means法

再現性があんまない
各データのベクトルのユークリッド?距離をとる
近いものをピトピトピト
雪だるま　重心が平均

主成分分析

ベクトルの射影？
なるべく情報量の損失が少なくなるように
回帰分析っぽい？

自己組織化Map

Neural Networkの一部
一個選ぶ
周りにおすそ分け

強化学習

-> 教師あり学習の一部と見る人も多い
教師あり学習 → 「答え」を与える
強化学習→ 「報酬」を与える

ミソ → 「報酬をどう決めるか」

ex. 将棋
どの手がいいのか？

昔:
「銀が王の周りにいると。。。」
「駒得...」

強化学習:
中盤から相互にランダムに駒を動かし続けて
「その手によって盤の評価スコアが上がったか下がったか」を見る

弊社では優秀なデータサイエンティストを募集しています！

http://www.entertainment.swwitch.jp

SwwitchInc’s blog

統計・機械学習まとめ