機械学習

第3回: 様々な分布I

千葉工業大学 上田 隆一


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

機械学習(と統計)第3回

今日やること

  • 二項分布
  • 分布の平均値と分散
  • ガウス分布
機械学習(と統計)第3回

実験

  1. ノートか定規を用意
    • ノートの場合は1, 2, 3, 4, 5, ....と罫線に数字を書く
  2. 以下を繰り返す
    • ペンを右の写真のようにセット
    • 指で根本を弾いてペン先の位置を記録(四捨五入で)
  • なにか傾向が出てくるまでやってみましょう
    • 本当は結果を見ながら試行したらダメなんだけど
    • 何回か練習してからやりましょう
機械学習(と統計)第3回

結果の例

  • 講師が10を狙って100回試行した結果
  • 疑問
    • こういう傾向をどう数学で扱う?
    • なんでこういう形になるんだろう?
機械学習(と統計)第3回

確率分布

  • どの事象がどの確率で起こるかをモデル化したもの
    • 数式で表したり、右のように図にしたり
  • 確率分布の作り方
    • 前ページのような試行に数式を当てはめる
    • サイコロの話の際、右図のような前提を置く
  • 用途の例
    • コンピュータに読み込んで計算、分析に使用
    • 前回、前々回のボウリングの結果になにか数式を当てはめて一般化
    • シミュレーション
    • ・・・
機械学習(と統計)第3回

確率分布を定義するときのルール

  • 互いに排反な事象を、抜けなく順番に番号(確率変数、小数も可)をつけて並べた横軸を用意
    • 例1: サイコロの場合
      • 事象「が出る」のを確率変数に
      • 「奇数が出る」等の事象は確率変数にならない
    • 例2: コインの場合
      • 表が0、裏が1(0や1にする必然性はない)
  • 記号ではと表す
    • との違いはなんでしょう?
機械学習(と統計)第3回

もうひとつの疑問: なんで山型に?

議論してみましょう

  • 狙ったところにいかない個別の理由はたくさんある
    • 具体的な理由が気になるけどここでは取り上げません
  • 個別ではなく全体の理由
    • 例えば10個の理由A, B, C, ..., Jがあるとして、その理由で発生する誤差をとする
    • これらの誤差が一斉に正、あるいは負になると大きな誤差が出るけど、そんな偶然が起こる確率は低い
      → 必然的に真ん中に山ができる
機械学習(と統計)第3回

二項分布

  • 前ページの現象を説明する確率分布
  • コインを枚投げたときに表が枚出る確率
    • 前ページの「誤差が正、負になる」がコインの裏表に相当
    • 表の出る確率をと一般化して計算してみましょう
      • 残念ながら加法定理、乗法定理で分解する方法では
        計算が難しいので原理からどうぞ
  • 一般化した数式を考えるのが苦手な人は、
    コインを6枚なげて表が枚出る確率を計算のこと
機械学習(と統計)第3回

二項分布の式

  • 考え方
    • 枚のコインを1枚ずつ投げて、個のコインで表が出る場合の数:
    • 上記の場合について、ひとつひとつの並びが出る確率:
    • ひとつひとつの並びが出る事象は互いに排反なので、個かけると求める確率になる
  • 上記の考え方で求まる式:
    • 分布全体はと表す
機械学習(と統計)第3回

二項分布の形

  • を絵に描いてみましょう
    • 再掲:
    • は適当にえらんでください
    • 例は次のページ
機械学習(と統計)第3回

二項分布の形の例

    • 上:
    • 中:
      • 表が出にくいので分布が左に寄る
    • 下:
      • 形状がなめらかに
      • 「すべて表」、「すべて裏」などが滅多に起こらないことが分かる
    • 問題: 100円かけて100枚のコインを投げてすべて表が出たら1億円もらえるとしたら賭けに参加しますか?
機械学習(と統計)第3回

分布と平均値・分散

  • 分布の形状には様々な特徴が存在
    • 中心がどこにあるか/どれだけ横に広いか/いくつ山があるか/山がどれだけ鋭いか・・・
  • 第1回で「データを1つの数値であらわす代表値」を扱ったが分布にもある
    • 分布を数式であらわすときにも利用
  • 分布をあらわす重要な数値
    • 平均値: 中心がどこにあるか
    • 分散: どれだけ横に広いか
機械学習(と統計)第3回

分布の平均値

  • の平均値: の期待値
    • 例: さいころの目
  • ついでに1: 分布にしたがうの期待値の表記法
    • と書いたりと書いたり
      • この資料では前者を使います
  • ついでに2: 右のようにある範囲でどこも確率が同じ分布を一様分布と呼びます
    - と表記(からまでの範囲に確率)
機械学習(と統計)第3回

分布の分散

  • 平均値と各値との差の2乗の期待値
    • 例: さいころの目


      • 計算が大変



  • 数字の意味はよくわからない(もとの量を2乗しているため)
機械学習(と統計)第3回

分布の標準偏差

  • 標準偏差
    • 分散の正の平方根
    • どれくらい分布が広いかを直感的につかむときに使用
    • サイコロの場合(計算してみましょう)
      • 右図の範囲
  • 「どれだけ広いか」なら「3」でよくない?
    • それでもよいが、すそのの広い(無限な)分布を扱うときは標準偏差が便利
機械学習(と統計)第3回

データの分散と標準偏差

  • 分布ではなくデータの分散を求めるときの式
      • : データの平均値
      • なぜでなくで割るかの大雑把な説明: 平均値をデータ自身から求めており
        • が小さいともっとデータが多い場合の平均値から少しバラつくから、その分だけ値が大きくなる
        • くわしくは「ロボットの確率・統計」に
  • 標準偏差はの平方根
機械学習(と統計)第3回

計算してみましょう

  • データ: 2, 3, 1, 5, 4
    • 答え: 平均値が3なので
      • 分散:
      • 標準偏差:
機械学習(と統計)第3回

ガウス分布(正規分布)

  • ペンの例は頻度を10mm、30mm区切りで考えていたけど長さは本来は小数(実数)
    • 二項分布は変数が整数だったけど、
      実数は扱えるのだろうか?(無理)
  • 二項分布のを増やしていくとどんなことになるだろうか?
    • ガウス分布
      • 右下図のような形状に
      • 表裏が出る確率の値にはよらないらしい(講師は未検証です)
機械学習(と統計)第3回

ガウス分布の式

    • : 平均値、: 標準偏差
    • は同じ意味です。
    • : 分布の形に関係がないので定数としていい部分を表す
  • なので適当にに数値を入れて図を描いてみましょう
  • 縦軸の数値は確率ではなく確率の密度
    • 今日は疲れていると思うのでまた後日
機械学習(と統計)第3回

ガウス分布が出現する場面

  • 2項分布とおなじく、不特定多数の原因でなにかの数値がばらつくときに出現
    • 様々な状況で出現
    • 身長、体重
    • 冒頭のペンの実験(「1cmごと」など範囲ごとではなく、ものさしの値を実数でそのまま集計するとしたがう)
    • ロボットのセンサの出力
    • ・・・(考えてみましょう)
機械学習(と統計)第3回

ガウス分布と標準偏差

  • ガウス分布では、平均値、標準偏差の値にかかわらず、
    の範囲に含まれるデータの割合は決まっている
    • : %(だいたい7割)
    • : %
    • : %(1000に3つ外れる)
  • 感覚として持っておくと良い
機械学習(と統計)第3回

まとめ

  • ばらつくデータについて考えた
    • 山型にばらつく理由を考察
  • 二項分布、ガウス分布
    • 様々なものが自然に従うという意味で重要
  • 分布の平均値、分散、標準偏差
機械学習(と統計)第3回