機械学習

第4回: 様々な分布II

千葉工業大学 上田 隆一


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

機械学習(と統計)第4回

今日やること

  • 離散型確率分布と連続型確率分布の違い
  • 二項分布、ガウス分布以外の重要な分布について確認
    • ポアソン分布
    • 指数分布
    • ベータ分布
  • 多次元の分布
式も重要ですけど現象との関係に注目しましょう
機械学習(と統計)第4回

離散、連続

  • 確率変数が整数のときと実数(小数)のときがある
    • 二項分布: 整数(離散型確率分布
    • ガウス分布: 実数(連続型確率分布
  • 両者の共通点と相違
    • 共通していること: 確率の合計は1
    • 違うところ
      • 離散型の場合は各変数の確率を足せば1に
      • 連続型の場合は積分しないといけない
        • グラフの縦軸は確率ではなく密度
        • 変数の範囲密度確率(次ページ)
機械学習(と統計)第4回

連続型確率分布からの確率の求め方

  • 実のところ積分する機会は少ない(安心)
  • 累積分布関数(の表)を使用
    • 変数の値が以下のグラフや表
    • 例: 右図の青色の線
      • ガウス分布の累積分布
      • 緑色の線(ガウス分布の確率密度関数)の積分値
  • 表の例(左側からの積分値になっている)
  • もちろん確率密度関数から表計算ソフトで求めてもよい(右図はExcelで描画)
機械学習(と統計)第4回

問題

  • 前ページの表を使って、ガウス分布にしたがう変数が、ガウス分布のの範囲に入る確率を計算してみましょう
    • 当該範囲は両側にあるので注意
  • 答え:
機械学習(と統計)第4回

さまざまな分布

  • いろんな自然、社会現象に現れる分布を見ていきましょう
機械学習(と統計)第4回

ポアソン分布

  • ある事象が一定時間に起こる回数がしたがう分布
    • 式:
      • : ある期間にその事象が起こる回数
  • 事象の例
    • 1ヶ月以内の地震の数など
  • 分布の形
    • が大きいとガウス分布に近づく
      • なんででしょう?
        • 大量のコインを投げて何枚表になるでしょうかという問題と等価になる
機械学習(と統計)第4回

問題

  • 問題: 年1回大きな地震が起こる地域で、次の3つの確率を求めてみましょう
    • ある年に起こらない確率
    • 1回起こる確率
    • 3回以上起こる確率
  • ポアソン分布の式(再掲):
    • に注意
  • 答え
    • (きっちり1回の年は4割もない)
    • 回以上
機械学習(と統計)第4回

指数分布

  • ある事象が起こってから次に起こるまでの間隔がしたがう分布
    • 例: 地震と地震の間の時間間隔
    • ポアソン分布と表裏一体(違いはちゃんと説明できるようにしましょう)
  • 確率密度関数:
    • : 間隔の平均値(: ポアソン分布の
  • 累積分布関数: 値が以下
機械学習(と統計)第4回

問題

  • 1年に1回地震が起こるとき、半年以内に起こる確率はより大きい?
  • ヒント: 累積分布関数(再掲)
  • 答え
      • より小さい
機械学習(と統計)第4回

ベータ分布

  • 式:
    • はベータ関数というややこしい関数
  • コインの表、裏がそれぞれ回出たときに、表が出る確率の分布
    • 投げるほど分布が尖っていく
      • 数学的な解釈: ある確率に収束していく
      • 生物的な解釈: ある確率なのではないかとだんだん確信していく
機械学習(と統計)第4回

多次元の分布

  • 世の中の状態、現象は互いに絡み合っている
    • 例: 身長の高い人は(そうでない場合もあるけど)体重も重い
  • 次の資料で関係していそうな項目を見つけてみましょう
機械学習(と統計)第4回

関係のありそうな項目

  • 例外も多いが、どっちかが大きいともう一方も大きい
  • いろいろ考えることがある
    • 世の中には逆のパターンもありそう
    • 中性脂肪が血圧にかかわらず以上に多い人たちがいるけどなに?
    • 例外のせいでSNSで喧嘩が起きてない?
    • 数学的にはどう扱う?
機械学習(と統計)第4回

共分散

  • ふたつの変数の大小の傾向が一致しているかどうかを調べる統計値
  • データがあるときの計算方法
    • データをとすると
      • : それぞれの平均値
どんな値なのでしょうか?いくつかの例で計算してみましょう
機械学習(と統計)第4回

共分散の計算1

  • 右のデータの場合の共分散は?
  • 答え
    • なので
機械学習(と統計)第4回

共分散の計算2

  • じゃあこのデータはどうでしょう?
  • 答え
    • なので

機械学習(と統計)第4回

共分散の計算3

  • このデータは?
  • 答え
    • なので

機械学習(と統計)第4回

共分散の値の性質

  • 正負が重要
    • 片方が大きいともう片方も大きい
    • 片方が大きいともう片方は小さい
    • 双方の大小にあまり関係がないゼロに近く
  • なんでそうなるか式をもう一度見てみましょう
機械学習(と統計)第4回

二次元のガウス分布

  • 個の変数がそれぞれガウス分布にしたがう場合、次元のガウス分布を当てはめることができる
  • 二次元のガウス分布の場合(形状の例は次のページ)
      • : 中心
      • : 共分散行列
        • : それぞれの分散
        • : 共分散
    • ソフトウェアを使う上ではで形が決まることが重要
機械学習(と統計)第4回

二次元のガウス分布

  • 共分散の値だけ変えて描画したもの
    (縦軸は密度)
    • 上:
    • 下:
    • 他のパラメータ:
  • 描画からわかる特徴
    • 密度の山の向きが変わる
    • 等高線は楕円型に(数式上も楕円に)
機械学習(と統計)第4回

まとめ

  • ポアソン分布、指数分布、ベータ分布、2次元のガウス分布を扱った
    • それぞれ、自然現象や社会現象のなかに出現する
    • 数式が難しい場合、まずはどういう性質なのかを考えるとよい
機械学習(と統計)第4回